druid集群运维

前言

作业帮内部营销中台(以下简称 IMP)承载着整个公司各个 app 端的流量分发,对智能化运营,精细化的营销广告投放起着至关重要的作用。对这些流量数据的链路转化进行有效的分析更是重中之重。

IMP 的整个链路流量数据处理采用的 flink + druid,并强依赖于 druid 提供上层的 BI,监控平台,算法接口,策略平台数据服务等线上应用。作为内部最大的 druid 集群,如何保证其能稳定的支撑海量数据的摄入与查询就成为了一个大问题。本来主要记录在对 druid 集群运维过程中碰到的一些问题以及优化。

基础

配置分发

故障演练

监控

机器监控

重要服务进程监控

Druid Metrics

数据集成

离线摄入任务优化

实时摄入任务优化与稳定性

存储

segment 优化

查询

物化视图

使用搜索:谷歌必应百度