scrapy管道的使用 Python

  1. 不同的pipeline可以处理不同爬虫的数据, 通过spider.name属性来区分
  2. 不同的pipeline能够对一个或多个爬虫爬虫进行不同的数据的操作,比如一个进行数据清洗,一个进行数据的保存
  3. 同一个管道类也可以处理不同爬虫的数据,通过spider.name属性来区分
标签: 爬虫

wen 发布于  2023-3-1 18:50 

scrapy模拟登陆 Python

scrapy携带cookies直接获取需要登陆后的页面

标签: 爬虫

wen 发布于  2023-3-1 00:11 

scrapy数据建模与请求 Python

一、数据建模

通常在做项目的过程中,在items.py中进行数据建模

  1. 为什么建模
    1. 定义item即提前规划好那些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
    2. 配合注释一起可以清晰的知道要抓取那些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替
    3. 使用 scrapy的一些特定组件需要item做支持,如scrapy的ImagePipeline管道类,百度收索了解更多
标签: 爬虫

wen 发布于  2023-3-1 00:00 

scrapy的入门使用 Python

一、安装scrapy

pip install scrapy

二、scrapy项目开发流程

  1. 创建项目:
    scrapy startproject mySpider
  2. 生成一个爬虫:
    scrapy genspider wenxk wenxk.top
  3. 提取数据:
    根据网站结果在spider中实现数据采集相关内容
  4. 保存数据:
    使用pipeline进行数据后续处理和保存
标签: 爬虫

wen 发布于  2023-2-28 23:51 

scrapy爬虫框架 Python

一、scrapy的概念

Scrapy是一个python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架、

二、scrapy框架的作用

少量的代码,就能够快速的抓取

三、scrapy的工作流程

标签: 爬虫

wen 发布于  2023-2-28 23:46 

验证码处理 Python

一、图片验证码

  1. 什么是图片验证码?验证码是一种用来区分用户是计算机还是人的公共全自动程序
  2. 验证码的作用?防止恶意破解密码、刷票、论坛灌水、刷页、
  3. 验证码的使用场景?注册、登入、频繁发送请求,服务器弹出验证码进行验证
  4. 图片验证码的处理方案?
    • 手动输入(input)这种方法,仅限于登录一次就可持续使用的情况
    • 图像识别引擎解析
    • 打码平台 爬虫常用的验证码解决方案

二、图片识别引擎

  1. 什么是tesseract
    • Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点开源,免费,支持多语言,多平台
    • 项目地址
标签: 爬虫

wen 发布于  2023-2-28 23:36 

常用的反爬手段 Python

一、服务器反爬的原因

  1. 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个PV)比例较高,这样浪费钱。
  2. 公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。
  3. 状告爬虫成功的几率小

二、反爬的三个方向

  1. 基于身份识别进行反爬
  2. 基于爬虫行为进行反爬
  3. 基于数据加密进行反爬
标签: 爬虫

wen 发布于  2023-2-28 23:28 

Selenium Python

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接调用浏览器,它支持所有主流浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。

标签: 爬虫

wen 发布于  2023-2-28 23:19 

数据提取 Python

通过python扩展提取结构性数据

标签: 爬虫

wen 发布于  2023-2-27 23:54 

requests模块介绍 Python

requests模块介绍

标签: 爬虫

wen 发布于  2023-2-27 23:46