OpenI 启智社区

启智社区,确实给力

当前位置:首页 > 学习 > 实训 >

Python大数据分析与挖掘实战

Python大数据分析与挖掘实战

  • 来源:广西民族师范学院
  • 章节:13 单元:14

  • 黄恒秋

  • 廖玉银

  • 蒙佳

  • 余佳瑢

  • 韦丽莎

  • 邓思泽

  • 黎美云

  • 许安頔

  • 杨海林

  • 戴清龙

  • 陆秋婷

  • 黄秀丽

  • 吴钰婷

  • 曾慧敏

  • 赵青梅

  • 黄云龙

  • 温新仪

  • 刘忠慧

  • 谢东津

  • 陆秋红
进入实训课程

课程简介:

本课程基于2020年11月人民邮电出版社出版的教材《Python大数据分析与挖掘实战(微课版)》和配套资源,以及学生课程设计和竞赛作品加工而成。从Python基础入门开始,到应用Python进行科学计算、数据处理、数据可视化、机器学习、深度学习,再到利用Python进行金融、地理信息、交通、文本、图像等具体领域数据挖掘与分析,并最终利用Python进行项目GUI可视化应用开发。内容分为两部分:视频讲授和在线编程实验闯关。
课程集电子教材、视频、实验、在线编程环境、教学与实验管理于一体,游戏式实验闯关设计,支持手机、电脑等终端,可用于混合式、SPOC课堂或公开课堂等多种形式教学。适合大数据、数学、计算机、经济金融管理类的本科生和大专生学习。对于研究生及数据挖掘研究者、爱好者也具有很好的参考价值。

课程章节:

第一章 语法基础

本阶段主要介绍Python基本数据类型、数据结构、基本数据操作、条件语句、循环语句、函数

第二章 科学计算

上一章主要介绍了Python的基本知识,对于从事数据挖掘分析工作的人员来说,这些知识是远远不够的,需要引入第三方Python数据挖掘与分析包,这些包专门为某种特定的数据挖掘或者分析而开发,能够极大地提高开发效率。本章主要介绍用于科学计算和数据分析的基础包Numpy(Numerical Python),它是绝大部分数据挖掘分析包的基础。下面介绍Numpy的主要内容。

第三章 数据处理

前一章中我们介绍了数组的基本概念及相关数据操作方法。从数组的定义可以看出,数组中的元素要求同质,即数据类型相同,这对数据处理与分析来说具有较大的局限性。本章介绍数据处理与分析挖掘中功能更加强大的另外一个包:Pandas,它基于Numpy而构建,可以处理不同数据类型,同时又含有非常利于数据处理分析的数据结构:序列(Series)和数据框(DataFrame)。下面进行详细介绍Pandas包相关的主要内容。

第四章 图像绘制

数据可视化是数据分析与挖掘中一个非常重要的任务。数据可视化是通过各种类型的图像来展现数据的分析结果或者分析过程,从而提高分析的效率和可读性。本章将介绍Python中用于数据可视化的一个非常重要的包:Matplotlib,并通过Matplotlib包中的pyplot模块,实现常见图像的绘制,如散点图、线性图、柱状图、直方图、饼图、箱线图及子图。

第五章 机器学习与实现

Python之所以能在数据科学与人工智能应用领域中占有重要位置,不仅是因为其免费、开源,易数据处理,更重要的是它还提供了丰富且功能强大的机器学习模型与算法程序包。本章主要介绍Python中的机器学习包Scikit-learn,包括其经典模型的原理及实现方法,可帮助读者掌握其基本理论,并在实践中应用。

第六章 深度学习与实现

深度学习的精确定义,众说纷纭,简单来说,深度学习是机器学习的一个分支领域:一种从数据中学习表示的新方法,它强调学习具有越来越有意义的表示的连续层,而这些层的表示一般是通过神经网络的模型来学习得到的。“深度学习”中的“深度”指的并不是利用这种方法所获取的更深层次的理解,而是指一系列连续的表示层,数据模型中包含多少层,这被称为模型的深度。一般来说,深度学习通常包含数十个甚至上百个连续的表示层,这些表示层全都是从训练数据中自动学习的。

第7章 基于财务与交易数据的量化投资分析

量化投资是金融数据挖掘分析的一个重要方向,本章通过一个具体案例介绍其基本的原理、方法及实现。首先通过财务报表及财务指标数据,采用数量化的方法,对上市公司基本面情况进行综合评价,从而选出质地较好的上市公司;其次,以选出的上市公司发行的A股股票作为研究对象,通过计算股票交易的技术分析指标,利用数据挖掘模型预测下一个交易日股票收盘价较开盘价的涨跌方向;最后,基于预测的结果设计量化投资策略并进行实证检验。下面将从案例背景、案例目标及实现思路、上市公司综合评价方法、股票交易技术指标计算、模型构建、结果分析及量化投资实证检验方面进行详细介绍。

第8章 众包任务定价优化方案

地理信息数据,主要以大地坐标为基础,即地球经纬度。经纬度数据的处理及可视化,与常见的平面坐标数据具有较大的差异,处理起来也相对复杂。本章基于众包平台的任务数据和注册会员数据,介绍了基于经纬度的地理信息可视化、距离与相关特征指标的计算、模型的构建与实现等,从而为地理信息数据的处理及建模提供一定基础。下面将从案例背景、案例目标及实现思路、数据获取、数据可视化、指标计算、模型构建与实现等方面进行详细介绍。

第9章 地铁站点日客流量预测

城市公共交通网每时每刻都承载巨大的客流量,客流量的增多为公共交通网和交通智能调度带来了巨大的压力。地铁站点短时的客流预测是智能地铁调度系统中重要的决策基础与技术支持。利用历史刷卡数据,对数据进行预处理以及相应的指标计算,能够有效准确的把握未来短时间内客流变化趋势,从而实时调整运营计划,对突发大客流做出及时预警和响应。

第10章 微博文本情感分析

随着互联网、社交网站的快速发展,社交网络成为人们生活中的一部分,比如新浪微博平台,人们可以在微博上发布个人动态、交流信息例如对商品、服务、美食、电影等的各类评论信息,这些信息蕴含了大量商机,比如各商家或平台通过收集各类评论数据,分析用户的情感倾向性,从而判断出用户的喜好向用户推送合适的商品,以提升商品的价值,通过对文本评论数据进行情感分析,加快产业的发展,提高用户使用的体验。本文采用支持向量机SVM和LSTM模型对微博文本进行情感分析,下面将从案例背景、案例目标及实现思路、数据获取及预处理、模型构建与实现等方面进行详细介绍。

第11章 基于水色图像的水质评价

图像识别,在实现中具有广泛应用,比如人脸识别、指纹识别、机器视觉、安防监控、农产品分拣、医疗诊断等。图像属于非结构化数据,需要使用专门的工具包进行图像读取及数据处理。本章使用Anaconda自带的PIL包进行读取及处理,避免了使用更复杂的图像处理工具。对于图像识别,通常有两种处理方法:1)对图像提取特征后,利用常见的分类模型进行识别,比如支持向量机、神经网络、逻辑回归等;2)利用深度学习模型直接对图像进行分类识别,这类模型具有自提取特征的机制,比如卷积神经网络深度学习模型。下面将从案例背景、案例目标及实现思路、数据获取、数据可视化、指标计算、模型构建与实现等方面进行详细介绍。

第12章 GUI可视化应用开发

前面章节介绍了Python大数据分析与挖掘技术在金融、地理信息、交通、文本、图像等领域的具体应用,但是我们注意到这些案例均是在Python开发环境下利用脚本程序运行的,然而实际环境中可视化应用开发必不可少。可视化应用开发一般有两种方式,一种是基于web的网站交互可视化,一种是基于桌面应用软件的交互可视化。由于Python大数据应用涉及大量的复杂计算,同时考虑到本课程的特点,我们采用纯Python的桌面应用软件开发,即图形用户界面(GUI)可视化应用开发。

第13章 课程考核