Row && Column - Compose "Tabular Data Set"发表于2020-03-23更新于2023-01-10字数统计633阅读时长5分前言Dataset ,DataFrame 在我们眼中的直观的呈现形式就是一张表格。那么我们该如何处理一张表格的行列呢?Spark SQL 中的 Row, Column 类型将为我们解答这个问题。阅读全文
Dataset - Structured Query with Data Encoder发表于2020-03-23更新于2023-01-10字数统计1.3k阅读时长11分前言Dataset 是 Spark SQL 中的一种强类型数据结构。用于抽象结构化查询。在 Spark 2.x 中,我们常常会用到 Dataset API 来表达我们对数据集的操作。阅读全文
Spark简介发表于2020-03-23更新于2023-01-10字数统计2.4k阅读时长14分前言Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合 GraphX,数据流处理 Spark Streaming。阅读全文
SparkSession - The Entry Point to Spark SQL发表于2020-03-21更新于2023-01-10字数统计907阅读时长7分前言根据 Spark 的架构,我们知道 driver 端通过 SparkContext 实例来控制程序的运行。在 Spark 2.X 里,提供了 SparkContext 的上层 SparkSession,两者之间可以互相转化。可以说,我们开发 Spark SQL 应用程序首先就要创建 SparkSession。阅读全文