«

验证码处理

时间:2023-2-28 23:36     作者:wen     分类: Python


一、图片验证码

  1. 什么是图片验证码?验证码是一种用来区分用户是计算机还是人的公共全自动程序
  2. 验证码的作用?防止恶意破解密码、刷票、论坛灌水、刷页、
  3. 验证码的使用场景?注册、登入、频繁发送请求,服务器弹出验证码进行验证
  4. 图片验证码的处理方案?
    • 手动输入(input)这种方法,仅限于登录一次就可持续使用的情况
    • 图像识别引擎解析
    • 打码平台 爬虫常用的验证码解决方案

二、图片识别引擎

  1. 什么是tesseract

    • Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点开源,免费,支持多语言,多平台
    • 项目地址
  2. 图片识别引擎环境的安装

    • 安装引擎
      • mac环境下直接执行命令
        • brew install --with-training-tools tesseract
      • windows环境下安装,可以通过exe安装包安装,下载地址可以从Github项目中的wiki找到。安装完成后记得将Tesseract执行文件的目录加入到PATH中,方便后续调用。
      • linux环境下安装
        • sudo apt-get install tesseract-ocr
    • python库的安装
      # PIL用于打开图片文件
      pip install pillow
      # pytesseract模块用于从图片中解析数据
      pip install pytesseract
  3. 图片识别引擎的使用

from PIL import Image
import pytesseract

im = Image.open()

result = pytesseract.image_to_string(im)

print(result)
  1. 图片识别引擎的使用扩展
    1. 使用tesseract训练自己的字库提高识别率
    2. 其它ocr平台
      1. 微软Azure图片识别
      2. 有道智云文字识别
      3. 阿里云图文识别
      4. 腾讯OCR文字识别

三、打码平台

  1. 现在很多网站都会使用验证码来进行反爬,所以为了能够更好的获取数据,需要了解如何使用打码平台爬虫中的验证码
  2. 常见的打码平台

标签: 爬虫