学习

⬡ 所有
⬡ 文档
⬡ 教程
⬡ 实训

数据挖掘

来源：国防科技大学
章节：9 单元：35

李莎莎
周竞文
唐晋韬
许可乐
王挺
人工智能组

进入实训课程

课程简介：

近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。
数据挖掘是人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。
本课程从数据开始介绍，学习对数据进行预处理，讲解数据属性之间的相似度和相异度，并用图形可视化的方法对数据进行处理，最后着重介绍关联算法（Apriori算法和FPgrowth算法）、聚类算法（K-means算法和DBScan算法）。

/>
图片来源：Veer图库 www.veer.com

课程章节：

第一章了解数据

在对数据进行数据挖掘之前，了解数据是十分有必要的：对挖掘目标和业务知识进行深入了解、对数据含义和数据质量进行深入了解、对一些错误数据进行处理。本章节将了解数据，然后对数据进行处理。了解数据包括查看数据的基本信息，如大小、列名、属性类型、值域、数据集类型等，数据处理包括判断异常值、检测遗漏值、处理冗余值。

第二章数据预处理

数据预处理是指在对数据进行数据挖掘之前，先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工作，已达到挖掘算法进行知识获取研究所要求的最低规范和标准。通常数据预处理包括：数据清洗、数据集成、数据变换、数据规约等。本章节将对数据预处理的相关知识进行介绍，包括噪音与误差、维归约（PCA和LDA）、特征选择、特征创建、离散化、数据变换。

第三章相似度与相异度

相似度(similarity): 两个对象相似程度的数值度量，通常相似度是非负的，在[0,1]之间取值。相异度(disimilarity): 两个对象差异程度的数值度量，通常也是非负的，在[0,1]之间取值，0到∞也很常见。本章节将介绍相似度和相异度的相关知识，使用不同系数计算文本之间的相异度。

第四章数据汇总统计及可视化

在Sklearn机器学习包中，集成了各种各样的数据集，鸢尾花卉（Iris）数据集，是很常用的一个数据集。本章节将对鸢尾花数据集进行可视化，将数据进行专业化处理，借助图形化手段，清晰有效的传达与沟通信息，提高数据分析的效率。

第五章关联分析算法

关联分析是一种简单、实用的分析技术，就是发现存在于大量数据集中的关联性或相关性，从而描述了一个事物中某些属性同时出现的规律和模式。本章节将介绍关联分析算法（Apriori算法、FPgrowth算法、GSP算法和GraphApriori算法）的相关知识。

第六章分类

分类（Classification）是一种重要的数据分析形式，它提取刻画重要数据类的模型。这种模型称为分类器，预测分类的（离散的、无序的）类标号。这些类别可以用离散值表示，其中值之间的次序没有意义。本章将以邮件过滤这一典型的文本分类应用场景为例，介绍数据挖掘中分类的几个常用算法，包括OneRule算法、覆盖算法、贝叶斯、决策树、最近邻和感知机算法。

第七章聚类算法

对于分类问题，我们通常不会提供 x 与 y 这样的映射关系，对于这种用机器自动找出其中规律并进行分类的问题，我们称为聚类。本章节将介绍聚类的两种常见算法，DBScan与K-means聚类，并对其进行比较。

第八章复杂类型数据挖掘

现实需求中，除了处理各种记录数据，往往还要面对文本、图像、空间、时序等复杂类型数据。本章将介绍文本、图像、轨迹等常见数据类型的挖掘

第九章竞赛案例分享

本章节将介绍\基于文本挖掘的旅游目的地印象分析\比赛案例，主要包括对景区酒店印象分析、景区及酒店的综合评价、网评文本的有效性分析、景区及酒店的特色分析四个问题。针对景区及酒店的游客评论数据，科学构建游客目的地满意度综合评价指标体系，为景区和酒店提高游客满意度提供决策依据。

启智社区，确实给力

学习

数据挖掘

课程简介：

课程章节：

第一章 了解数据

第二章 数据预处理

第三章 相似度与相异度

第四章 数据汇总统计及可视化

第五章 关联分析算法

第六章 分类

第七章 聚类算法

第八章 复杂类型数据挖掘

第九章 竞赛案例分享