scrapy管道的使用 Python
- 不同的pipeline可以处理不同爬虫的数据, 通过spider.name属性来区分
- 不同的pipeline能够对一个或多个爬虫爬虫进行不同的数据的操作,比如一个进行数据清洗,一个进行数据的保存
- 同一个管道类也可以处理不同爬虫的数据,通过spider.name属性来区分
标签: 爬虫
scrapy数据建模与请求 Python
一、数据建模
通常在做项目的过程中,在items.py中进行数据建模
- 为什么建模
- 定义item即提前规划好那些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
- 配合注释一起可以清晰的知道要抓取那些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替
- 使用 scrapy的一些特定组件需要item做支持,如scrapy的ImagePipeline管道类,百度收索了解更多
标签: 爬虫
scrapy的入门使用 Python
一、安装scrapy
pip install scrapy
二、scrapy项目开发流程
- 创建项目:
scrapy startproject mySpider
- 生成一个爬虫:
scrapy genspider wenxk wenxk.top
- 提取数据:
根据网站结果在spider中实现数据采集相关内容 - 保存数据:
使用pipeline进行数据后续处理和保存
标签: 爬虫
scrapy爬虫框架 Python
一、scrapy的概念
Scrapy是一个python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架、
二、scrapy框架的作用
少量的代码,就能够快速的抓取
三、scrapy的工作流程
标签: 爬虫
验证码处理 Python
一、图片验证码
- 什么是图片验证码?验证码是一种用来区分用户是计算机还是人的公共全自动程序
- 验证码的作用?防止恶意破解密码、刷票、论坛灌水、刷页、
- 验证码的使用场景?注册、登入、频繁发送请求,服务器弹出验证码进行验证
- 图片验证码的处理方案?
- 手动输入(input)这种方法,仅限于登录一次就可持续使用的情况
- 图像识别引擎解析
- 打码平台 爬虫常用的验证码解决方案
二、图片识别引擎
- 什么是tesseract
- Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点开源,免费,支持多语言,多平台
- 项目地址
标签: 爬虫
常用的反爬手段 Python
一、服务器反爬的原因
- 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个PV)比例较高,这样浪费钱。
- 公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。
- 状告爬虫成功的几率小
二、反爬的三个方向
- 基于身份识别进行反爬
- 基于爬虫行为进行反爬
- 基于数据加密进行反爬
标签: 爬虫