/>
图片来源:Veer图库 www.veer.com
在对数据进行数据挖掘之前,了解数据是十分有必要的:对挖掘目标和业务知识进行深入了解、对数据含义和数据质量进行深入了解、对一些错误数据进行处理。 本章节将了解数据,然后对数据进行处理。了解数据包括查看数据的基本信息,如大小、列名、属性类型、值域、数据集类型等,数据处理包括判断异常值、检测遗漏值、处理冗余值。
数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工作,已达到挖掘算法进行知识获取研究所要求的最低规范和标准。通常数据预处理包括:数据清洗、数据集成、数据变换、数据规约等。 本章节将对数据预处理的相关知识进行介绍,包括噪音与误差、维归约(PCA和LDA)、特征选择、特征创建、离散化、数据变换。
相似度(similarity): 两个对象相似程度的数值度量,通常相似度是非负的,在[0,1]之间取值。 相异度(disimilarity): 两个对象差异程度的数值度量,通常也是非负的,在[0,1]之间取值,0到∞也很常见。 本章节将介绍相似度和相异度的相关知识,使用不同系数计算文本之间的相异度。
在Sklearn机器学习包中,集成了各种各样的数据集,鸢尾花卉(Iris)数据集,是很常用的一个数据集。 本章节将对鸢尾花数据集进行可视化,将数据进行专业化处理,借助图形化手段,清晰有效的传达与沟通信息,提高数据分析的效率。
关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。 本章节将介绍关联分析算法(Apriori算法、FPgrowth算法、GSP算法和GraphApriori算法)的相关知识。
分类(Classification)是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的(离散的、无序的)类标号。这些类别可以用离散值表示,其中值之间的次序没有意义。本章将以邮件过滤这一典型的文本分类应用场景为例,介绍数据挖掘中分类的几个常用算法,包括OneRule算法、覆盖算法、贝叶斯、决策树、最近邻和感知机算法。
对于分类问题,我们通常不会提供 x 与 y 这样的映射关系,对于这种用机器自动找出其中规律并进行分类的问题,我们称为聚类。 本章节将介绍聚类的两种常见算法,DBScan与K-means聚类,并对其进行比较。
现实需求中,除了处理各种记录数据,往往还要面对文本、图像、空间、时序等复杂类型数据。 本章将介绍文本、图像、轨迹等常见数据类型的挖掘
本章节将介绍\基于文本挖掘的旅游目的地印象分析\比赛案例,主要包括对景区酒店印象分析、景区及酒店的综合评价、网评文本的有效性分析、景区及酒店的特色分析四个问题。针对景区及酒店的游客评论数据,科学构建游客目的地满意度综合评价指标体系,为景区和酒店提高游客满意度提供决策依据。