验证码处理 Python

一、图片验证码

  1. 什么是图片验证码?验证码是一种用来区分用户是计算机还是人的公共全自动程序
  2. 验证码的作用?防止恶意破解密码、刷票、论坛灌水、刷页、
  3. 验证码的使用场景?注册、登入、频繁发送请求,服务器弹出验证码进行验证
  4. 图片验证码的处理方案?
    • 手动输入(input)这种方法,仅限于登录一次就可持续使用的情况
    • 图像识别引擎解析
    • 打码平台 爬虫常用的验证码解决方案

二、图片识别引擎

  1. 什么是tesseract
    • Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点开源,免费,支持多语言,多平台
    • 项目地址
标签: 爬虫

wen 发布于  2023-2-28 23:36 

常用的反爬手段 Python

一、服务器反爬的原因

  1. 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个PV)比例较高,这样浪费钱。
  2. 公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。
  3. 状告爬虫成功的几率小

二、反爬的三个方向

  1. 基于身份识别进行反爬
  2. 基于爬虫行为进行反爬
  3. 基于数据加密进行反爬
标签: 爬虫

wen 发布于  2023-2-28 23:28 

Selenium Python

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接调用浏览器,它支持所有主流浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。

标签: 爬虫

wen 发布于  2023-2-28 23:19 

数据提取 Python

通过python扩展提取结构性数据

标签: 爬虫

wen 发布于  2023-2-27 23:54 

requests模块介绍 Python

requests模块介绍

标签: 爬虫

wen 发布于  2023-2-27 23:46 

网络爬虫 Python

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),就是模拟客户端(主要是浏览器)发送网络请求,接受请求响应,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

标签: 爬虫 docs

wen 发布于  2023-2-27 23:43