DataSource API - Managing Datasets in External Data Sources

前言

前面已经讲解了 Spark SQL 程序的入口,使用到的数据结构以及一些定义在上面的简单操作。那么我们工作中该如何将各种数据源中的数据转换成 Spark SQL 可以处理的数据结构进而进行各种计算呢?这就是本篇幅要讲解的 DataSource API(DataSource API 提供了读写各种数据源的 format,你甚至可以自定义 format 来连接外部数据源)。

阅读全文

Row && Column - Compose "Tabular Data Set"

前言

Dataset ,DataFrame 在我们眼中的直观的呈现形式就是一张表格。那么我们该如何处理一张表格的行列呢?Spark SQL 中的 Row, Column 类型将为我们解答这个问题。

阅读全文

Dataset - Structured Query with Data Encoder

前言

Dataset 是 Spark SQL 中的一种强类型数据结构。用于抽象结构化查询。在 Spark 2.x 中,我们常常会用到 Dataset  API 来表达我们对数据集的操作。

阅读全文

Spark简介

前言

Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合 GraphX,数据流处理 Spark Streaming。

阅读全文

SparkSession - The Entry Point to Spark SQL

前言

根据 Spark 的架构,我们知道 driver 端通过 SparkContext 实例来控制程序的运行。在 Spark 2.X 里,提供了 SparkContext 的上层 SparkSession,两者之间可以互相转化。可以说,我们开发 Spark SQL 应用程序首先就要创建 SparkSession。

阅读全文
使用搜索:谷歌必应百度