漫谈数据库索引
前言
为什么要了解数据索引呢?我们都知道索引结构一般会加速查询,那这些索引是如何加速查询的呢?我们有时候建立了索引,但是查询比没建索引都要慢,这又是为什么呢?我们有时候会根据不同的业务场景选择不同的索引类型,选择的依据又是什么呢?
带着以上几个疑惑,让我们开始了解数据库索引到底是啥,它的底层数据结构是什么样子的,是怎样加速查询的,索引本身又做了哪些优化。希望读完本文后,可以为你解决上述存留在心中的疑问。
在这里也顺便提下个人对大数据的理解,大数据其实就是海量数据的存储和检索,前者关注于如何更高效的把数据放到存储介质上,后者关注于如何更高效的把数据从存储介质上检索出来,需要注意这里的检索指的是检查数据是否存在,如果数据存在则返回。而索引又是检索的核心,了解索引之后会对理解整个检索过程有更深刻的理解,比如执行计划的解析,join order 等等的影响。
工作中实践过的数据流架构
druid集群运维
doris/starrocks 碎碎念
未知的征程
doris实时数据摄入测试
之前的一些学习目标和计划
OneData探索
前言
2021 年下半年主要做的是 IMP 实时/离线数据流的摄入以及涉及的各种 BI 报表工作。IMP 即内部营销平台,也可以叫作端内广告投放,作为最前置的业务,IMP 整个链路横跨广告投放、策略分流、落地页、微信导流、短信/PUSH、成单等多个垂直业务单元。随着业务需求的频繁迭代,之前构建的业务数仓暴露出来越来越多的问题,表、字段的命名不统一,同一业务不同表之间的逻辑耦合,相同指标不同口径实现的来回对数也对数据研发侧造成了很大困扰,由此本身产出的数据指标的置信性也开始受到挑战。
基于以上问题,2022 年开始做了一些离线业务数仓方向上的调研以及落地规划。目标是在支撑业务快速迭代开发的前提下,统一化字段业务口径,规范化离线数据开发,降低离线表的存储资源,去除逻辑的冗余开发,提高离线 ETL 的开发效率。
本文主要介绍个人基于 OneData 的一些看法,并举一些例子。