Elasticsearch 与 Hive 集成

前言

工作上存在将 Hive 上的数据刷到 ES 的场景,首先想到的是自己写程序读取 Hive 上的数据,经过业务逻辑处理在写回到 ES 上,不过请教了下,知道了 ES 本身已经可以和 Hive 集成。只需添加对应的 jar 包,在 hive 上建立与 ES 关联的外部表,即可使用 HQL 查询写入 ES 索引库。具体使用请见官方文档 ,本文只举个简单例子及介绍下主要的参数。

阅读全文

实时消费 MySQL Binlog

前言

最近工作中用到的,以前没有搞过 binlog,遂在本地完整的跑遍 demo 看看。整体数据流如下,Canal 接收 MySQL Binlog 到 Kafka。Spark Streaming 消费数据写到 ES。

阅读全文

2020阴霾之下

前言

2020 经历了太多的事情,很幸运的是我身边有很多朋友,是他们在我落寞的时候给了我鼓励。

阅读全文

多个 git 账户配置 SSH

前言

个人代码维护在 github,而目前大多数公司代码维护在私有 gitlab。这是两套不同的账户体系,并且一般私有 gitlab 的 commit email 不能更改,git 全局的用户名和邮箱只能有一个。这就导致了如下问题 → 不管配置了几个 SSH pub key,SSH 认证最终走的都是 global 的用户名的认证(比如你全局的用户是 github 的,那么你提交 gitlab 就会报 Permission Denied)。本文主要用来解决此问题。
其实多个 SSH 配置的话都是这样搞的,配个路由就好了。

阅读全文

常见的SQL优化

前言

关系型数据库中常见的 SQL 优化。挺久前写过的笔记了,应该借鉴了挺多文章,侵删。

阅读全文

Apache Kafka实战-认识Apache Kafka

前言

最近读完了 DDIA 前五章,回过头来在看 Apache Kafka 实战,很多东西都是不谋而合的,从中也可以看出来很多分布式处理框架在解决自身消息编码设计,复制分区故障转移的方法思维都是差不多的,只是根据各自主攻的场景选择更合适的解决方案。

  • 可靠性,可伸缩性,可维护性
  • 数据模型与查询语言
  • 存储与检索
  • 编码与演化
  • 复制与分区
阅读全文

Spark Shuffle

前言

在学习很多大数据处理框架时,我们都会听到 Shuffle 。那么 Shuffle 到底是什么?为什么需要 Shuffle 的存在呢?

阅读全文

mac os 升级到 big sur的坑

前言

升级到 big sur 后,一些系统命令及软件包找不到了(比如 git,python3..)。

阅读全文
使用搜索:谷歌必应百度