爬虫是从网页上爬取信息,掌握一些网页基础知识,本章主要介绍爬虫的基础知识。
在进行网页爬取时,需要访问网页并进行解析,本章主要介绍如何调用 Python 爬虫常用模块访问解析网页。
为了从网页上精确提取所需信息,必须掌握正则表达式的使用,本章主要介绍如何使用正则表达式。
爬取信息后,需要对数据进行保存,本章主要介绍如何保存爬取到的数据。
本章将介绍爬虫进阶知识,如何实现多网页爬取以及如何躲避反爬。
Scrapy 爬虫框架可以更方便的爬取网页信息,本章主要介绍 Scrapy 爬虫的使用。