Python - 文虎的博客

scrapy管道的使用 Python

不同的pipeline可以处理不同爬虫的数据，通过spider.name属性来区分
不同的pipeline能够对一个或多个爬虫爬虫进行不同的数据的操作，比如一个进行数据清洗，一个进行数据的保存
同一个管道类也可以处理不同爬虫的数据，通过spider.name属性来区分

标签: 爬虫

wen 发布于 2023-3-1 18:50

评论(0) 浏览(208)

scrapy模拟登陆 Python

scrapy携带cookies直接获取需要登陆后的页面

标签: 爬虫

wen 发布于 2023-3-1 00:11

评论(0) 浏览(167)

scrapy数据建模与请求 Python

一、数据建模

通常在做项目的过程中，在items.py中进行数据建模

为什么建模
1. 定义item即提前规划好那些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查
2. 配合注释一起可以清晰的知道要抓取那些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替
3. 使用 scrapy的一些特定组件需要item做支持，如scrapy的ImagePipeline管道类，百度收索了解更多

标签: 爬虫

wen 发布于 2023-3-1 00:00

评论(0) 浏览(183)

scrapy的入门使用 Python

一、安装scrapy

pip install scrapy

二、scrapy项目开发流程

创建项目：
scrapy startproject mySpider
生成一个爬虫：
scrapy genspider wenxk wenxk.top
提取数据：
根据网站结果在spider中实现数据采集相关内容
保存数据：
使用pipeline进行数据后续处理和保存

标签: 爬虫

wen 发布于 2023-2-28 23:51

评论(0) 浏览(159)

scrapy爬虫框架 Python

一、scrapy的概念

Scrapy是一个python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架、

二、scrapy框架的作用

少量的代码，就能够快速的抓取

三、scrapy的工作流程

标签: 爬虫

wen 发布于 2023-2-28 23:46

评论(0) 浏览(180)

验证码处理 Python

一、图片验证码

什么是图片验证码？验证码是一种用来区分用户是计算机还是人的公共全自动程序
验证码的作用？防止恶意破解密码、刷票、论坛灌水、刷页、
验证码的使用场景？注册、登入、频繁发送请求，服务器弹出验证码进行验证
图片验证码的处理方案？
- 手动输入（input）这种方法，仅限于登录一次就可持续使用的情况
- 图像识别引擎解析
- 打码平台爬虫常用的验证码解决方案

二、图片识别引擎

什么是tesseract
- Tesseract，一款由HP实验室开发由Google维护的开源OCR引擎，特点开源，免费，支持多语言，多平台
- 项目地址

标签: 爬虫

wen 发布于 2023-2-28 23:36

评论(0) 浏览(297)

常用的反爬手段 Python

一、服务器反爬的原因

爬虫占总PV（PV是指页面的访问次数，每打开或刷新一次页面，就算做一个PV）比例较高，这样浪费钱。
公司可免费查询的资源被批量抓走，丧失竞争力，这样少赚钱。
状告爬虫成功的几率小

二、反爬的三个方向

基于身份识别进行反爬
基于爬虫行为进行反爬
基于数据加密进行反爬

标签: 爬虫

wen 发布于 2023-2-28 23:28

评论(0) 浏览(276)

Selenium Python

Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium可以直接调用浏览器，它支持所有主流浏览器，可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏等。

标签: 爬虫

wen 发布于 2023-2-28 23:19

评论(0) 浏览(326)

数据提取 Python

通过python扩展提取结构性数据

标签: 爬虫

wen 发布于 2023-2-27 23:54

评论(0) 浏览(233)

requests模块介绍 Python

requests模块介绍

标签: 爬虫

wen 发布于 2023-2-27 23:46

评论(0) 浏览(302)

scrapy管道的使用 Python

scrapy模拟登陆 Python

scrapy数据建模与请求 Python

一、数据建模

scrapy的入门使用 Python

一、安装scrapy

二、scrapy项目开发流程

scrapy爬虫框架 Python

一、scrapy的概念

二、scrapy框架的作用

三、scrapy的工作流程

验证码处理 Python

一、图片验证码

二、图片识别引擎

常用的反爬手段 Python

一、服务器反爬的原因

二、反爬的三个方向

Selenium Python

数据提取 Python

requests模块介绍 Python

最新文章

热门文章

搜索

日历

标签

个人资料

最新评论

链接

分类

存档