时间序列数据处理 | 数据分析的基本流程 | 常用 Python 库和函数的使用 | 运用 Python 语言解决实际问题的能力 |
如何对原始数据进行分析及预处理 | 掌握如何使用ARIMA模型来预测时序型数据 |
本章节主要是对数据进行预处理:包括数据获取、数据展示、数据介绍以及数据信息的查看。其中主要对时间的格式进行转化,以及字段的统计和一些异常值的处理,包括空值的查看,重复项的删除以及一些不重要的数据的剔除。 学习本章所需知识: 1.numpy库的使用 2.pandas库的使用 3.数据信息的基本查看
本章节数据分析包括:单变量分析、基线百分比分布、双变量分析、Dickey-Fuller 检验、KPSS检验;其中单变量分析、基线百分比分布、双变量分析以图例绘画对数据进行分析;Dickey-Fuller 检验、KPSS检验主要是对数据序列平稳性的检验与调整。 学习本章所需知识: 1.matplotlib库的基本掌握 2.seaborn库的基本掌握 3.adfuller库的基本掌握 4.kpss库的基本掌握
在上个章节中我们已经使数据序列平稳了,因此在本章中我们就可以开始进行建模。由于没有季节性成分,我们可以使用ARIMA模型。ARIMA模型存在三个超参数: p:AR(自回归)项的阶数。需要事先设定好,表示y的当前值和前p个历史值有关。 d:使序列平稳的最小差分阶数,一般是1阶。非平稳序列可以通过差分来得到平稳序列,但是过度的差分,会导致时间序列失去自相关性,从而失去使用AR项的条件。 q:MA(滑动平均)项的阶数。需要事先设定好,表示y的当前值和前q个历史值AR预测误差有关。实际是用历史值上的AR项预测误差来建立一个类似归回的模型。 学习本章所需知识: ARIMA模型的创建、训练以及测试。