UDAF - User Defined Aggregate  Functions

前言

UDF 是基于列的自定义处理函数。UDAF 是基于多行的自定义处理函数。UDAF 用于 Untyped Dataset,Aggregator 用于处理自定义 Scala 对象构成的数据集的聚合。本文主要以三个例子来实现简单的 UDAF 和 Aggregator。

阅读全文

UDF - User  Defined  Functions

前言

Spark 本身提供的算子可以满足我们大多数的需求,并且我们可以组合各种算子,但是计算处理逻辑往往是复杂的。有些转换逻辑需要我们自定义函数才可以实现,这些自定义函数就是 UDF。UDF 是基于列的函数,拓展了 Spark SQL DSL,用于转换数据集。

阅读全文

Build In Functions

前言

需要处理的数据结构往往是复杂的,在 Spark 中该如何操作 Map,Array,struct 这些结构呢?Spark 已经为我们提供了很多内置函数来处理这一切。这些函数大多定义在 org.apache.saprk.sql.functions。

阅读全文

Actions - Trigger real calculations

前言

你可能已经知道 action 会触发提交 Spark 作业,开始进行真正的计算。那么 action 到底是什么,又是如何触发计算的呢?希望本篇可以带你了解这些东西。

阅读全文

Transformations - Transform Your Dataset

前言

由前面提到的 Spark 计算模型,我们可以知道 Spark 的数据计算在本质上是 RDD 的迭代转换。本文要讲的就是涉及到转换操作的转换算子 transformations 。通过这些转换算子,你就可以完成定义在数据集上的各种计算了,就和 SQL 一样。

阅读全文

Schema - Describe Structure of Data

前言

Schema 描述并规范数据的结构组成。在 Spark SQL 中,你所处理的每个 df, ds 都有自己的 schema。

阅读全文

DataSource API - Managing Datasets in External Data Sources

前言

前面已经讲解了 Spark SQL 程序的入口,使用到的数据结构以及一些定义在上面的简单操作。那么我们工作中该如何将各种数据源中的数据转换成 Spark SQL 可以处理的数据结构进而进行各种计算呢?这就是本篇幅要讲解的 DataSource API(DataSource API 提供了读写各种数据源的 format,你甚至可以自定义 format 来连接外部数据源)。

阅读全文

Row && Column - Compose "Tabular Data Set"

前言

Dataset ,DataFrame 在我们眼中的直观的呈现形式就是一张表格。那么我们该如何处理一张表格的行列呢?Spark SQL 中的 Row, Column 类型将为我们解答这个问题。

阅读全文

Dataset - Structured Query with Data Encoder

前言

Dataset 是 Spark SQL 中的一种强类型数据结构。用于抽象结构化查询。在 Spark 2.x 中,我们常常会用到 Dataset  API 来表达我们对数据集的操作。

阅读全文
使用搜索:谷歌必应百度