验证码处理 Python
一、图片验证码
- 什么是图片验证码?验证码是一种用来区分用户是计算机还是人的公共全自动程序
- 验证码的作用?防止恶意破解密码、刷票、论坛灌水、刷页、
- 验证码的使用场景?注册、登入、频繁发送请求,服务器弹出验证码进行验证
- 图片验证码的处理方案?
- 手动输入(input)这种方法,仅限于登录一次就可持续使用的情况
- 图像识别引擎解析
- 打码平台 爬虫常用的验证码解决方案
二、图片识别引擎
- 什么是tesseract
- Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点开源,免费,支持多语言,多平台
- 项目地址
标签: 爬虫
常用的反爬手段 Python
一、服务器反爬的原因
- 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个PV)比例较高,这样浪费钱。
- 公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。
- 状告爬虫成功的几率小
二、反爬的三个方向
- 基于身份识别进行反爬
- 基于爬虫行为进行反爬
- 基于数据加密进行反爬
标签: 爬虫
Selenium Python
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接调用浏览器,它支持所有主流浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。
标签: 爬虫
网络爬虫 Python
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),就是模拟客户端(主要是浏览器)发送网络请求,接受请求响应,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
1 2