验证码处理
时间:2023-2-28 23:36 作者:wen 分类: Python
一、图片验证码
- 什么是图片验证码?验证码是一种用来区分用户是计算机还是人的公共全自动程序
- 验证码的作用?防止恶意破解密码、刷票、论坛灌水、刷页、
- 验证码的使用场景?注册、登入、频繁发送请求,服务器弹出验证码进行验证
- 图片验证码的处理方案?
- 手动输入(input)这种方法,仅限于登录一次就可持续使用的情况
- 图像识别引擎解析
- 打码平台 爬虫常用的验证码解决方案
二、图片识别引擎
-
什么是tesseract
- Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点开源,免费,支持多语言,多平台
- 项目地址
-
图片识别引擎环境的安装
- 安装引擎
- mac环境下直接执行命令
brew install --with-training-tools tesseract
- windows环境下安装,可以通过exe安装包安装,下载地址可以从Github项目中的wiki找到。安装完成后记得将Tesseract执行文件的目录加入到PATH中,方便后续调用。
- linux环境下安装
sudo apt-get install tesseract-ocr
- mac环境下直接执行命令
- python库的安装
# PIL用于打开图片文件 pip install pillow # pytesseract模块用于从图片中解析数据 pip install pytesseract
- 安装引擎
-
图片识别引擎的使用
from PIL import Image
import pytesseract
im = Image.open()
result = pytesseract.image_to_string(im)
print(result)
- 图片识别引擎的使用扩展
- 使用tesseract训练自己的字库提高识别率
- 其它ocr平台
- 微软Azure图片识别
- 有道智云文字识别
- 阿里云图文识别
- 腾讯OCR文字识别
三、打码平台
- 现在很多网站都会使用验证码来进行反爬,所以为了能够更好的获取数据,需要了解如何使用打码平台爬虫中的验证码
- 常见的打码平台
- 云打码:能见见通用的验证码识别
- 极验验证码智能识别辅助:能够解决复杂验证码的识别
标签: 爬虫