Azkaban工作流的编写

前言

本篇主要讲解如何使用 AzKaban Flow 2.0 来编写工作流。Flow 1.0 在以后的版本中会逐步移除。

阅读全文

Azkaban的搭建与配置

前言

AzKaban 是一个任务流调度器,可以组织作业及工作流之间的依赖关系,使得任务按照我们所想的方式有序执行。并且可以轻便的实现报警监控。本文主要讲解如何以 mutible executor mode 部署 AzKaban,并提交简单的工作流做测试使用。

阅读全文

git常用命令

前言

这里记录一些常见的 git 操作。

阅读全文

Hadoop之Yarn

前言

YARN 作为最常见的资源调度管理器,它是如何工作的呢?

阅读全文

Hadoop 之 MapReduce

前言

接触大数据以来,主要写 Spark SQL 和 HQL 来处理数据。关于 MR,除了公司有些数据导入工具是采用 MR 来写的,顺便了解了下,其他时候都没怎么用过。现在想想,未免有些跳的太快了,Spark ,Hive 中的思想有很多也是借鉴 MR 的。甚至最初始的 Hive 就是 SQL 版的 MR。
本篇主要用来介绍一些 MR 的自定义特性以及如何编写 MR 程序。我们只需要告诉框架做什么,而不用关心框架怎么做。

阅读全文

Hadoop之HDFS

HDFS

Hadoop 分布式文件存储系统。用于海量数据的存储,往往是静态数据,适合 OLAP 分析。

阅读全文

Mac 上 VmwareFusion配置静态 IP

背景

由于学习原因,在 mac 上下了 Vmware Fusion 构建虚拟机搭建集群。(emnn,我也想用 docker 呀,奈何水平不大够)。配置静态 IP 的时候,发现和 windows 上的一点也不一样,碰到了一些问题,遂记录下来。

阅读全文

关于数开的一些问题

前言

emnn,先把问题罗列一下,周末梳理梳理。借用了很多文章,侵删

阅读全文

Scala实用指南-从Java到Scala

前言

接触 Scala 小半年,主要用来写 Spark SQL。不得不感叹这东西的学习曲线,入门简单,深入难,好多姿势不懂什么意思,往往写不出 Scala 的特性。现在基本就是拿来当简洁版的 Java 来用,囿于这种想法,常常觉得为啥别人写的 Scala 这么炫,姿势这么多。但是其实忽略了简洁也正是 Scala 相比 Java 的一个优点。
本文主要介绍 Scala 的简洁性,用比 java 更少的代码量来达到同样的效果甚至更好,更容易让人理解。 不深究其中的一些特性,仅仅展现,让我们知道可以这样做。

阅读全文

vim常用的命令

背景

脑子老是记不住东西,每次都反复查,遂分类记录下来

阅读全文
使用搜索:谷歌必应百度