«

网络爬虫

时间:2023-2-27 23:43     作者:wen     分类: Python


爬虫的概念

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),就是模拟客户端(主要是浏览器)发送网络请求,接受请求响应,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

  1. 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做
  2. 爬虫也只能获取客户端(浏览器)所展示的数据

爬虫的作用

  1. 数据采集
  2. 软件测试
  3. 12306抢票
  4. 网站上的投票
  5. 网络安全

爬虫的分类

  1. 根据被爬取网站的数量不同可以分为:
    通用爬虫,如搜索引擎
    聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据

  2. 根据是否以获取数据为目的,可以分为:
    功能性爬虫,投票,点赞
    数据增量爬虫,比如招聘信息

  3. 根据URL地址和对应的页面内容是否改变,数据增量可以分为:
    基于URL地址变化、内容也随之变化的数据增量爬虫
    URL地址不变,内容变化的数据增量爬虫

爬虫的流程

URL -> 发送请求,获取响应 -> 解析


  1. requests模块介绍
  2. 数据提取
  3. Selenium
  4. 常用的反爬手段
  5. 验证码处理
  6. scrapy爬虫框架
  7. scrapy的入门使用
  8. scrapy数据建模与请求
  9. scrapy模拟登陆
  10. scrapy管道的使用
  11. crawlspider爬虫类
  12. scrapy中间件的使用
  13. scrapy_redis概念作用和流程
  14. scrapy_redis原理分析并实现断点续爬以及分布式爬虫
  15. scrapy_splash-一个JavaScript渲染服务

标签: 爬虫 docs