scrapy管道的使用
时间:2023-3-1 18:50 作者:wen 分类: Python
一、pipeline中常用的方法:
-
process_item(self, item, spider):
- 管道类中必须有的函数
- 实现对item数据的处理
- 必须return item
-
open_spider(self, spider): 在爬虫开启的时候仅执行一次
-
close_spider(self, spider): 在爬虫关闭的时候仅执行一次
二、管道文件的修改
# pipelines.py
from itemadapter import ItemAdapter
from pymongo import MongoClient
class WangyiPipeline:
def open_spider(self, spider): # 在爬虫开启的时候仅执行一次
if spider.name == "job":
self.file = open('wangyi.json', 'w')
def process_item(self, item, spider):
# 写数据
return item
def close_spider(self, spider): # 在爬虫关闭的时候仅执行一次
if spider.name == "job":
self.file.close()
class WangyiSimplePipeline:
def open_spider(self, spider): # 在爬虫开启的时候仅执行一次
if spider.name == "jobSimple":
self.file = open('wangyijobSimple.json', 'w')
def process_item(self, item, spider):
# 写数据
return item
def close_spider(self, spider): # 在爬虫关闭的时候仅执行一次
if spider.name == "job":
self.file.close()
class MongoPipeline(object):
def open_spider(self, spider): # 在爬虫开启的时候仅执行一次
self.client = MongoClient('127.0.0.1', 27017)
self.db = self.client['test']
self.col = self.db['stu']
def process_item(self, item, spider):
# 写数据
data = dict(item)
self.col.insert_one(data)
return item
def close_spider(self, spider): # 在爬虫关闭的时候仅执行一次
if spider.name == "job":
self.client.close()
# settings.py
ITEM_PIPELINES = {
'wangyi.pipelines.WangyiPipeline': 300,
'wangyi.pipelines.WangyiSimplePipeline': 301,
'wangyi.pipelines.MongoPipeline': 302,
}
注意:
- 不同的pipeline可以处理不同爬虫的数据, 通过spider.name属性来区分
- 不同的pipeline能够对一个或多个爬虫爬虫进行不同的数据的操作,比如一个进行数据清洗,一个进行数据的保存
- 同一个管道类也可以处理不同爬虫的数据,通过spider.name属性来区分
四、pipeline使用注意点
- 使用之前需要在settings中开启
- pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义),值表示距离引擎的远近,越近数据会越先经过:权重值小的优先执行
- 有多个pipeline的时候,process_item的方法必须return item,否则后一个pipeline取到的数据为None值。
- pipeline中process_item的方法必须有,否则item没有办法接收和处理
- process_item方法接收item和spider,其中spider表示当前传递item过来的spider
- open_spider(self, spider): 在爬虫开启的时候仅执行一次
- close_spider(self, spider): 在爬虫关闭的时候仅执行一次
- 上述两个方法经常用于爬虫和数据库的交互,在爬虫开启的时候建立和数据库的连接,在爬出关闭的时候断开和数据库的连接
标签: 爬虫