网络爬虫
时间:2023-2-27 23:43 作者:wen 分类: Python
爬虫的概念
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),就是模拟客户端(主要是浏览器)发送网络请求,接受请求响应,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
- 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做
- 爬虫也只能获取客户端(浏览器)所展示的数据
爬虫的作用
- 数据采集
- 软件测试
- 12306抢票
- 网站上的投票
- 网络安全
爬虫的分类
-
根据被爬取网站的数量不同可以分为:
通用爬虫,如搜索引擎
聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据 -
根据是否以获取数据为目的,可以分为:
功能性爬虫,投票,点赞
数据增量爬虫,比如招聘信息 -
根据URL地址和对应的页面内容是否改变,数据增量可以分为:
基于URL地址变化、内容也随之变化的数据增量爬虫
URL地址不变,内容变化的数据增量爬虫
爬虫的流程
URL -> 发送请求,获取响应 -> 解析