OpenI 启智社区

启智社区,确实给力

当前位置:首页 > 学习 > 实训 >

数据挖掘

数据挖掘

  • 来源:国防科技大学
  • 章节:9 单元:35

  • 李莎莎

  • 周竞文

  • 唐晋韬

  • 许可乐

  • 王挺

  • 人工智能组
进入实训课程

课程简介:

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。
本课程从数据开始介绍,学习对数据进行预处理,讲解数据属性之间的相似度和相异度,并用图形可视化的方法对数据进行处理,最后着重介绍关联算法(Apriori算法和FPgrowth算法)、聚类算法(K-means算法和DBScan算法)。


/>
图片来源:Veer图库 www.veer.com


课程章节:

第一章 了解数据

在对数据进行数据挖掘之前,了解数据是十分有必要的:对挖掘目标和业务知识进行深入了解、对数据含义和数据质量进行深入了解、对一些错误数据进行处理。 本章节将了解数据,然后对数据进行处理。了解数据包括查看数据的基本信息,如大小、列名、属性类型、值域、数据集类型等,数据处理包括判断异常值、检测遗漏值、处理冗余值。

第二章 数据预处理

数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工作,已达到挖掘算法进行知识获取研究所要求的最低规范和标准。通常数据预处理包括:数据清洗、数据集成、数据变换、数据规约等。 本章节将对数据预处理的相关知识进行介绍,包括噪音与误差、维归约(PCA和LDA)、特征选择、特征创建、离散化、数据变换。

第三章 相似度与相异度

相似度(similarity): 两个对象相似程度的数值度量,通常相似度是非负的,在[0,1]之间取值。 相异度(disimilarity): 两个对象差异程度的数值度量,通常也是非负的,在[0,1]之间取值,0到∞也很常见。 本章节将介绍相似度和相异度的相关知识,使用不同系数计算文本之间的相异度。

第四章 数据汇总统计及可视化

在Sklearn机器学习包中,集成了各种各样的数据集,鸢尾花卉(Iris)数据集,是很常用的一个数据集。 本章节将对鸢尾花数据集进行可视化,将数据进行专业化处理,借助图形化手段,清晰有效的传达与沟通信息,提高数据分析的效率。

第五章 关联分析算法

关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。 本章节将介绍关联分析算法(Apriori算法、FPgrowth算法、GSP算法和GraphApriori算法)的相关知识。

第六章 分类

分类(Classification)是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的(离散的、无序的)类标号。这些类别可以用离散值表示,其中值之间的次序没有意义。本章将以邮件过滤这一典型的文本分类应用场景为例,介绍数据挖掘中分类的几个常用算法,包括OneRule算法、覆盖算法、贝叶斯、决策树、最近邻和感知机算法。

第七章 聚类算法

对于分类问题,我们通常不会提供 x 与 y 这样的映射关系,对于这种用机器自动找出其中规律并进行分类的问题,我们称为聚类。 本章节将介绍聚类的两种常见算法,DBScan与K-means聚类,并对其进行比较。

第八章 复杂类型数据挖掘

现实需求中,除了处理各种记录数据,往往还要面对文本、图像、空间、时序等复杂类型数据。 本章将介绍文本、图像、轨迹等常见数据类型的挖掘

第九章 竞赛案例分享

本章节将介绍\基于文本挖掘的旅游目的地印象分析\比赛案例,主要包括对景区酒店印象分析、景区及酒店的综合评价、网评文本的有效性分析、景区及酒店的特色分析四个问题。针对景区及酒店的游客评论数据,科学构建游客目的地满意度综合评价指标体系,为景区和酒店提高游客满意度提供决策依据。