OpenI 启智社区

启智社区,确实给力

当前位置:首页 > 学习 > 实训 >

【Python大数据分析与挖掘】能力提升训练营

【Python大数据分析与挖掘】能力提升训练营

  • 来源:广西民族师范学院
  • 章节:13 单元:16

  • 黄恒秋

  • 廖玉银

  • 曾慧敏

  • 赵青梅

  • 吴钰婷

  • 莫洁安

  • 温新仪

  • 黄云龙

  • 范燕玲

  • 韦丽莎

  • 余佳瑢

  • 许安頔

  • 黄秀丽

  • 陆秋婷
进入实训课程

课程简介:

由“十三五规划”和“数据科学与大数据技术专业规划”精品教材老师亲自主讲,精选微课视频、头歌标准化在线实训关卡等资源精心打造。本课程作为专业核心课程,是作者多年来实践教学的总结和升华

你将学到


Python编程基础 Pandas数据处理
Matplotlib可视化 Scikit-learn机器学习
TensorFlow2.0深度学习 关联规则

金融、地理信息、地铁交通、文本、图像和GUI系统开发等热门案例

企业急需



课程特色


在线实践,边学边练 视频课+大项目实战+技术答疑
经典案例,真实还原 买断式课程,无限期回看
  特别说明:
- 头歌平台提供在线编程环境+数据集,在线实践,边学边练,学完真的能上手!
- 视频课+大项目实战+直播答疑+主讲老师亲自上阵技术答疑等超过4类专属社群服务
- 真实上市公司财务和交易大数据在线实操案例,数学建模和大数据建模竞赛真实案例,文本、图像、地理经纬度数据处理应用、GUI等经典案例,大规模数据分块读取和处理技术,理论与实践相结合

课程资源


《Python大数据分析与挖掘实战(微课版)》配套资料
63节视频课+16大项目实战
实用大数据分析案例+备课资料和教研经验
大数据分析挖掘类赛题分析+视频及实验关卡服务

面向人群


- 大学授课老师/大数据相关专业学生或从业人员,也适用于对大数据感兴趣的非专业人士。

师资团队


—黄恒秋老师




- CPDA项目数据分析师,三年CSMAR数据库分析师企业工作经历。发表中文核心期刊论文3篇,其中EI源刊1篇。
- 主编教材《Python金融数据分析与挖掘实战》和《Python大数据分析与挖掘实战(微课版)》2部。教材分别为普通高等院校十三五规划教材和数据科学与大数据技术专业系列规划教材。
- 近三年指导学生参加大数据相关竞赛获省部级以上奖励30余项。主持广西本科教学改革工程项目1项、教育部产学研合作协同育人项目2项。主持广西中青年基础能力提升研究项目1项。
- 获2021年广西高等教育教学成果奖二等奖1项(排名第2)。


—莫洁安老师




- CPDA项目数据分析师、大数据分析师(高级),主要研究方向是大数据算法与深度学习、人工智能优化等,涉足领域有金融大数据、图像和文本处理等。
- 发表大数据相关论文2篇,主要授课课程是数学建模、数据挖掘与分析、python爬虫等。分别作为第四主编和第二主编出版教材《Python金融数据分析与挖掘实战》和《Python大数据分析与挖掘实战(微课版)》。
- 曾指导全国大学生数学建模竞赛、广西人工智能竞赛等等各类竞赛获得一等奖一项、二等奖4项等等。


—助教团队




- 黄恒秋和莫洁安教师指导的师生共创教研团队—Python大数据学习吧,由若干优秀学生组成,主要参与教材和课程资源开发、参加学科竞赛、产品开发及运营、课程培训及答疑。
- 目前开发及运营的产品有Python大数据学习吧网易云课堂网校(24门课程)、微信公众号、今日头条号及头歌平台上三门大数据分析与挖掘实践课程,团队成员获省级以上大数据竞赛、数学建模竞赛、挑战杯和互联网+大赛50余项,期待优秀学生加入我们团队,共享团队资源,共同成长。

课程章节:

第一章 语法基础

本章主要介绍Python基本数据类型、数据结构、基本数据操作、条件语句、循环语句、函数等。

第二章 科学计算

上一章主要介绍了Python的基本知识,对于从事数据挖掘分析工作的人员来说,这些知识是远远不够的,需要引入第三方Python数据挖掘与分析包,这些包专门为某种特定的数据挖掘或者分析而开发,能够极大地提高开发效率。本章主要介绍用于科学计算和数据分析的基础包Numpy(Numerical Python),它是绝大部分数据挖掘分析包的基础。下面介绍Numpy的主要内容。

第三章 数据处理

前一章中我们介绍了数组的基本概念及相关数据操作方法。从数组的定义可以看出,数组中的元素要求同质,即数据类型相同,这对数据处理与分析来说具有较大的局限性。本章介绍数据处理与分析挖掘中功能更加强大的另外一个包:Pandas,它基于Numpy而构建,可以处理不同数据类型,同时又含有非常利于数据处理分析的数据结构:序列(Series)和数据框(DataFrame)。下面进行详细介绍Pandas包相关的主要内容。

第四章 图像绘制

数据可视化是数据分析与挖掘中一个非常重要的任务。数据可视化是通过各种类型的图像来展现数据的分析结果或者分析过程,从而提高分析的效率和可读性。本章将介绍Python中用于数据可视化的一个非常重要的包:Matplotlib,并通过Matplotlib包中的pyplot模块,实现常见图像的绘制,如散点图、线性图、柱状图、直方图、饼图、箱线图及子图。

第五章 机器学习与实现

Python之所以能在数据科学与人工智能应用领域中占有重要位置,不仅是因为其免费、开源,易数据处理,更重要的是它还提供了丰富且功能强大的机器学习模型与算法程序包。本章主要介绍Python中的机器学习包Scikit-learn,包括其经典模型的原理及实现方法,可帮助读者掌握其基本理论,并在实践中应用。

第六章 深度学习与实现

深度学习的精确定义,众说纷纭,简单来说,深度学习是机器学习的一个分支领域:一种从数据中学习表示的新方法,它强调学习具有越来越有意义的表示的连续层,而这些层的表示一般是通过神经网络的模型来学习得到的。“深度学习”中的“深度”指的并不是利用这种方法所获取的更深层次的理解,而是指一系列连续的表示层,数据模型中包含多少层,这被称为模型的深度。一般来说,深度学习通常包含数十个甚至上百个连续的表示层,这些表示层全都是从训练数据中自动学习的。

第7章 基于财务与交易数据的量化投资分析

量化投资是金融数据挖掘分析的一个重要方向,本章通过一个具体案例介绍其基本的原理、方法及实现。首先通过财务报表及财务指标数据,采用数量化的方法,对上市公司基本面情况进行综合评价,从而选出质地较好的上市公司;其次,以选出的上市公司发行的A股股票作为研究对象,通过计算股票交易的技术分析指标,利用数据挖掘模型预测下一个交易日股票收盘价较开盘价的涨跌方向;最后,基于预测的结果设计量化投资策略并进行实证检验。下面将从案例背景、案例目标及实现思路、上市公司综合评价方法、股票交易技术指标计算、模型构建、结果分析及量化投资实证检验方面进行详细介绍。

第8章 众包任务定价优化方案

地理信息数据,主要以大地坐标为基础,即地球经纬度。经纬度数据的处理及可视化,与常见的平面坐标数据具有较大的差异,处理起来也相对复杂。本章基于众包平台的任务数据和注册会员数据,介绍了基于经纬度的地理信息可视化、距离与相关特征指标的计算、模型的构建与实现等,从而为地理信息数据的处理及建模提供一定基础。下面将从案例背景、案例目标及实现思路、数据获取、数据可视化、指标计算、模型构建与实现等方面进行详细介绍。

第9章 地铁站点日客流量预测

城市公共交通网每时每刻都承载巨大的客流量,客流量的增多为公共交通网和交通智能调度带来了巨大的压力。地铁站点短时的客流预测是智能地铁调度系统中重要的决策基础与技术支持。利用历史刷卡数据,对数据进行预处理以及相应的指标计算,能够有效准确的把握未来短时间内客流变化趋势,从而实时调整运营计划,对突发大客流做出及时预警和响应。

第10章 微博文本情感分析

随着互联网、社交网站的快速发展,社交网络成为人们生活中的一部分,比如新浪微博平台,人们可以在微博上发布个人动态、交流信息例如对商品、服务、美食、电影等的各类评论信息,这些信息蕴含了大量商机,比如各商家或平台通过收集各类评论数据,分析用户的情感倾向性,从而判断出用户的喜好向用户推送合适的商品,以提升商品的价值,通过对文本评论数据进行情感分析,加快产业的发展,提高用户使用的体验。本文采用支持向量机SVM和LSTM模型对微博文本进行情感分析,下面将从案例背景、案例目标及实现思路、数据获取及预处理、模型构建与实现等方面进行详细介绍。

第11章 图像识别模型与应用

图像识别,在实现中具有广泛应用,比如人脸识别、指纹识别、机器视觉、安防监控、农产品分拣、医疗诊断等。图像属于非结构化数据,需要使用专门的工具包进行图像读取及数据处理。本章使用Anaconda自带的PIL包进行读取及处理,避免了使用更复杂的图像处理工具。对于图像识别,通常有两种处理方法:1)对图像提取特征后,利用常见的分类模型进行识别,比如支持向量机、神经网络、逻辑回归等;2)利用深度学习模型直接对图像进行分类识别,这类模型具有自提取特征的机制,比如卷积神经网络深度学习模型。下面将从案例背景、案例目标及实现思路、数据获取、数据可视化、指标计算、模型构建与实现等方面进行详细介绍。

第12章 GUI可视化应用开发

前面章节介绍了Python大数据分析与挖掘技术在金融、地理信息、交通、文本、图像等领域的具体应用,但是我们注意到这些案例均是在Python开发环境下利用脚本程序运行的,然而实际环境中可视化应用开发必不可少。可视化应用开发一般有两种方式,一种是基于web的网站交互可视化,一种是基于桌面应用软件的交互可视化。由于Python大数据应用涉及大量的复杂计算,同时考虑到本课程的特点,我们采用纯Python的桌面应用软件开发,即图形用户界面(GUI)可视化应用开发。

第13章 课程考核