OpenI 启智社区

启智社区,确实给力

当前位置:首页 > 学习 > 实训 >

Python 网络爬虫技术

Python 网络爬虫技术

  • 来源:头歌教研中心
  • 章节:6 单元:29

  • 大数据组

  • 王明亮

  • 张金炜

  • 范子超
进入实训课程

课程简介:

Python 爬虫,简单来说,即通过 Python 程序获取对我们有用的数据。如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。从技术层面来说,就是通过程序模拟浏览器请求站点的行为,把站点返回的 HTML 代码/ JSON 数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。爬虫基本流程如下:
- 第一步:发起请求。一般是通过 HTTP 库,对目标站点进行请求。等同于自己打开浏览器,输入网址;
- 第二步: 获取响应内容(Response)。如果请求的内容存在于服务器上,那么服务器会返回请求的内容,一般为:HTML,二进制文件(视频,音频),文档,Json 字符串等;
- 第三步:解析内容。对于用户而言,就是寻找自己需要的信息。可以使用 Xpath 解析 HTML 的内容获取自己想要的信息数据,也可以使用正则匹配,方法有很多种,这一般看用户自己的偏爱或者说熟悉哪个技术点;
- 第四步:保存数据。解析得到的数据可以多种形式,如文本,音频,视频保存在本地。
本课程将介绍 Python 爬虫入门的相关知识,包括 HTML 基础、正则表达式、爬虫基础知识、MySQL 数据持久化以及 Scrapy 爬虫框架等内容。



课程章节:

爬虫基础

爬虫是从网页上爬取信息,掌握一些网页基础知识,本章主要介绍爬虫的基础知识。

Python爬虫常用模块

在进行网页爬取时,需要访问网页并进行解析,本章主要介绍如何调用 Python 爬虫常用模块访问解析网页。

Python正则表达式

为了从网页上精确提取所需信息,必须掌握正则表达式的使用,本章主要介绍如何使用正则表达式。

数据持久化

爬取信息后,需要对数据进行保存,本章主要介绍如何保存爬取到的数据。

爬虫进阶

本章将介绍爬虫进阶知识,如何实现多网页爬取以及如何躲避反爬。

Scrapy 爬虫

Scrapy 爬虫框架可以更方便的爬取网页信息,本章主要介绍 Scrapy 爬虫的使用。