石头的博客

真正的大师永远怀着一颗学徒的心

«

网络爬虫

时间：2023-2-27 23:43 作者：wen 分类： Python

爬虫的概念

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），就是模拟客户端（主要是浏览器）发送网络请求，接受请求响应，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

原则上，只要是客户端（浏览器）能做的事情，爬虫都能够做
爬虫也只能获取客户端（浏览器）所展示的数据

爬虫的作用

数据采集
软件测试
12306抢票
网站上的投票
网络安全

爬虫的分类

根据被爬取网站的数量不同可以分为：
通用爬虫，如搜索引擎
聚焦爬虫，如12306抢票，或专门抓取某一个（某一类）网站数据
根据是否以获取数据为目的，可以分为：
功能性爬虫，投票，点赞
数据增量爬虫，比如招聘信息
根据URL地址和对应的页面内容是否改变，数据增量可以分为：
基于URL地址变化、内容也随之变化的数据增量爬虫
URL地址不变，内容变化的数据增量爬虫

爬虫的流程

URL -> 发送请求，获取响应 -> 解析