Dataset - Structured Query with Data Encoder

前言

Dataset 是 Spark SQL 中的一种强类型数据结构。用于抽象结构化查询。在 Spark 2.x 中,我们常常会用到 Dataset  API 来表达我们对数据集的操作。

阅读全文

Spark简介

前言

Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合 GraphX,数据流处理 Spark Streaming。

阅读全文

SparkSession - The Entry Point to Spark SQL

前言

根据 Spark 的架构,我们知道 driver 端通过 SparkContext 实例来控制程序的运行。在 Spark 2.X 里,提供了 SparkContext 的上层 SparkSession,两者之间可以互相转化。可以说,我们开发 Spark SQL 应用程序首先就要创建 SparkSession。

阅读全文
使用搜索:谷歌必应百度