本章节主要介绍Spark的核心入门知识,包含Spark的安装,运行流程、任务提交等模块,带领你认识 Spark。
RDD 是 Spark 的计算模型。是 Spark 中最基本的数据抽象,它代表一个不可变、只读的、被分区的数据集。RDD使用方便,而无需关心底层的调度细节。本章节将带领你学习RDD的基础知识,了解如何使用RDD进行编程。
SparkSQL 是 Spark 的一个模块,主要用于进行结构化数据的处理。本章节主要介绍 Spark SQL 的入门知识以及使用 Spark SQL 进行军事信息统计。
Spark Structed Streaming 是 Spark 的一个模块,主要用来进行实时数据处理。本章节主要介绍了 Spark 流处理中的结构化流的使用,以及如何使用结构化流进行军事数据的实时处理。
Spark GraphX 图计算是 Spark 的一个模块。本章节主要介绍了 Spark GraphX 图计算的基础知识,并根据所学对军用物资路线进行规划。
Spark MLib 机器学习是 Spark 的一个模块,提供了 MLlib 机器学习的包,本章节主要介绍了Spark MLib 机器学习的基础知识,并使用 Spark Mlib 对卫星坦克图像进行分类。