本章节主要介绍了Spark的安装,运行流程和任务提交和初始化流程。
本章节主要介绍了RDD的概念、用Java、Scala和Python如何创建RDD以及Spark算子在三种语言中的使用。
本章节为Spark算子的测试题,以此来加深对Spark算子的理解和使用。
SparkSQL是Spark的一个模块,主要用于进行结构化数据的处理。 本章节主要介绍了如何使用SparkSQL以及多个数据源的读写操作。
SparkStreaming是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。本章节介绍了SparkStreaming如何从多个数据源处理数据。
GraphX是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘简洁易用而丰富多彩的接口,满足了大规模图处理的需求。本章主要通过案例讲解GraphX。
Spark MLlib Spark中可以扩展的机器学习库,它有一系列的机器学习算法和实用程序组成。 本章节主要通过垃圾邮件检测和红酒分类等案例向我们介绍了分类算法的使用。
本章节为出租车轨迹的一个案例,包含了数据清洗,数据分析以及可视化展示几个模块。
本章节为酒店数据分析,主要包含数据清洗和数据分析。