本章节将介绍贝叶斯分类和特征选择,以贝叶斯分类作为数据挖掘分类实践任务的起点,开启数据挖掘的学习。
数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工作,已达到挖掘算法进行知识获取研究所要求的最低规范和标准。通常数据预处理包括:数据清洗、数据集成、数据变换、数据规约等。 本章节将对数据操作预处理过程,包括数据清洗、数据转换、数据降维。
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析提供的数据,并查找特定类型的模式和趋势。 本章节将介绍数据挖掘的常用算法,包括线性回归、基础聚类、密度聚算法等。
数据分类是一个两阶段过程,包括学习阶段构建分类模型和分类阶段使用模型预测给定数据的类标号。 分类是一种重要的数据分析形式,它提取刻画重要数据类的模型,这种模型称为分类器,预测分类的(离散的、无序的)类标号。 本章节将介绍数据挖掘中用到的分类器,包括KNN、SVM、神经网络、随机森林、Boosting、Bagging、GBDT。