树

发表于2020-05-26更新于2023-01-10字数统计355阅读时长3分

树

树是一种数据结构。为什么会有树这种数据结构？目前理解的非常不深，回答不上来，在以后的日子里补。

Application UI - Monitoring and Instrumentation

发表于2020-05-25更新于2023-01-10字数统计1.8k阅读时长12分

前言

Spark Application UI 可以帮助我们直观的了解 Spark 的执行过程，作业占用的 CPU，内存资源的多少，GC耗费的时间，Stage 是如何划分的，每个 Task 的执行时间等。像如果 Spark 作业执行时间过长，我们就可以去 UI 上查看到底是哪个 Task 执行占用时间最长，这个 Task 的操作是什么，进而找到问题并解决优化。

回溯之矩阵中是否存在某个字符串

发表于2020-05-15更新于2023-01-10字数统计296阅读时长2分

题目

存在类似以下的矩阵，判断矩阵中是否存在某个字符串，比如存在 adeh，不存在 adhk

MarkDown 文档常用的语法

发表于2020-05-14更新于2023-01-10字数统计575阅读时长5分

背景

在使用 MarkDown 语法书写文档的过程中，经常遇到一些场景不会表达，每次都去搜索，太浪费时间。遂记录下来放在本篇文档中。不定期更新

常见的Linux数据处理命令

发表于2020-05-07更新于2023-01-10字数统计3.7k阅读时长26分

背景

读到了一篇文章讲的如何用 linux 命令来实现一些常见的数据处理操作，如排序，去重，聚合等，感觉非常不错。正好最近工作也用到了这些，遂翻译过来，顺便实践一下。原文地址 An Introduction To Data Science On The Linux Command Line

磁盘与内存

发表于2020-05-07更新于2023-01-10字数统计931阅读时长4分

程序的运行方式

磁盘中存储的应用程序必须加载到内存中才能执行，这是因为解析和运行程序的 CPU 需要通过程序计数器指定内存地址来读取程序指令的。

zero_copy

发表于2020-05-07更新于2023-01-10字数统计1.3k阅读时长6分

基本概念

用户态与内核态

机器的资源是固定的，应用程序进程却有很多，如果无节制的使用资源会导致系统崩溃。所以必须要对进程使用何种资源进行限制，由此权限的不同可以分为用户态和内核态。处于内核态中的程序可以说为所欲为。内核态像外管理硬件资源，像内管理操作系统中的进程，内存等资源。用户态和内核态的划分可以表示为

Java安装

发表于2020-05-03更新于2023-01-10字数统计462阅读时长3分

为什么 Java 8 仍是主流

如今 Java 已经出到了 14，为啥子大家还是在用 Java 8。你有没有为这个困惑过呢。其实接受新事物都有这样的规律，一是新事物有足够的吸引力，大家主动去追求。二是旧事物被强制扼杀，只能转向新事物。

Hadoop安装与基本配置

发表于2020-04-14更新于2023-01-10字数统计1.3k阅读时长9分

Mac 上安装 Hadoop

前提条件
- Java 安装
命令安装
执行以下命令，hadoop 会被安装到 /usr/local/Cellar/Hadoop/${HADOOP_VERSION}，这样默认安装的是 Hadoop 的最新版本，修改配置可以直接去安装目录下。

SSH配置

发表于2020-04-10更新于2023-01-10字数统计282阅读时长1分

什么是 SSH

ssh 是一种网络协议，用于计算机之间的加密登录。大致流程如下