学习

⬡ 所有
⬡ 文档
⬡ 教程
⬡ 实训

Python 网络爬虫技术

来源：头歌教研中心
章节：6 单元：29

大数据组
王明亮
张金炜
范子超

进入实训课程

课程简介：

Python 爬虫，简单来说，即通过 Python 程序获取对我们有用的数据。如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说，就是通过程序模拟浏览器请求站点的行为，把站点返回的 HTML 代码/ JSON 数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。爬虫基本流程如下：
- 第一步：发起请求。一般是通过 HTTP 库，对目标站点进行请求。等同于自己打开浏览器，输入网址；
- 第二步：获取响应内容（Response）。如果请求的内容存在于服务器上，那么服务器会返回请求的内容，一般为：HTML，二进制文件（视频，音频），文档，Json 字符串等；
- 第三步：解析内容。对于用户而言，就是寻找自己需要的信息。可以使用 Xpath 解析 HTML 的内容获取自己想要的信息数据，也可以使用正则匹配，方法有很多种，这一般看用户自己的偏爱或者说熟悉哪个技术点；
- 第四步：保存数据。解析得到的数据可以多种形式，如文本，音频，视频保存在本地。
本课程将介绍 Python 爬虫入门的相关知识，包括 HTML 基础、正则表达式、爬虫基础知识、MySQL 数据持久化以及 Scrapy 爬虫框架等内容。

课程章节：

爬虫基础

爬虫是从网页上爬取信息，掌握一些网页基础知识，本章主要介绍爬虫的基础知识。

Python爬虫常用模块

在进行网页爬取时，需要访问网页并进行解析，本章主要介绍如何调用 Python 爬虫常用模块访问解析网页。

Python正则表达式

为了从网页上精确提取所需信息，必须掌握正则表达式的使用，本章主要介绍如何使用正则表达式。

数据持久化

爬取信息后，需要对数据进行保存，本章主要介绍如何保存爬取到的数据。

爬虫进阶

本章将介绍爬虫进阶知识，如何实现多网页爬取以及如何躲避反爬。

Scrapy 爬虫

Scrapy 爬虫框架可以更方便的爬取网页信息，本章主要介绍 Scrapy 爬虫的使用。

启智社区，确实给力

学习