«

scrapy_redis概念作用和流程

时间:2023-3-1 19:03     作者:wen     分类: Python


一、分布式是什么

简单的说分布式就是不同的节点(服务器,ip不同)共同完成一个任务

二、scrapy_redis的概念

scrapy_redis是scrapy框架的基于redis的分布式组件

三、scrapy_redis的作用

通过持久化请求队列和请求的指纹集合来实现:

四、scrapy_redis的工作流程

  1. 在scrapy_redis中,所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中
  2. 所有的服务器中的scrapy进程公用同一个redis中的request对象的队列
  3. 所有的request对象存入redis前,都会通过该redis中的request指纹集合进行判断,之前是否已经存入过
  4. 在默认情况下所有的数据会保存在redis中

scrapy_redis流程图.jpg

标签: 爬虫