您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

pyppeteer识别图片验证码,自动化登录

时间:2022-03-15 10:12:14  来源:  作者:淡墨流年pyseo

之前用selenium进行图片验证码识别时,核心逻辑是首先获取浏览器全屏截图,再对验证码元素进行坐标定位,最后利用定位对浏览器全屏进行截图,想想还是挺复杂的,这次用pyppeteer库进行识别一下。相对selenium识别相对方便很多。

举一个例子,比如识别这张登录验证码,再到平台自动打码,最后点击自动登录获取登录cookies。

 

pyppeteer识别图片验证码,自动化登录

 

接下来,在代码中先初始化对象

async def init():
    global page
    browser = awAIt launch(**KW_ARGS)
    page = (await browser.pages())[-1]
    await page.setViewport({'width':WINDOW_WIDTH,'height':WINDOW_HEIGHT})

async def openWeb():
    url = 'http://xxxx.com/User/Login'
    await page.goto(url)
    await page.waitForSelector('#username',options={'timeout':TIMES_OUT*1000})
    await page.evaluate("document.body.style.zoom='0.8'")
    # await page.waitFor(TIMES_OUT*1000)

获取验证码图片id

pyppeteer识别图片验证码,自动化登录

 

对验证码图片进行截屏保存

async def get_screen_shot():
    element = await page.waitForSelector('#Verify')
    await element.screenshot(path='screen.png')

查看验证码图片,发现已经将验证码图片保存本地了。

pyppeteer识别图片验证码,自动化登录

 

后面调用第三方打码平台,对图片进行识别就可以了

pyppeteer识别图片验证码,自动化登录

 

拿到识别的代码,接下来我们模拟输入账号信息,点击登录就可以了

async def loging():
    await page.evaluate("document.body.style.zoom='1'")
    await page.type('#username', USER, {'delay': 100})
    await page.type('#password', PASS, {'delay': 100})
    await get_code()

    await page.waitFor(3 * 1000)

登录成功后,获取cookies,将cookies保存到本地,方便我们请求库进行请求,获取登录后页面信息,后面就可以进行数据的抓取了



Tags:pyppeteer   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
pyppeteer识别图片验证码,自动化登录
之前用selenium进行图片验证码识别时,核心逻辑是首先获取浏览器全屏截图,再对验证码元素进行坐标定位,最后利用定位对浏览器全屏进行截图,想想还是挺复杂的,这次用pyppeteer库进...【详细内容】
2022-03-15  Search: pyppeteer  点击:(432)  评论:(0)  加入收藏
Pyppeteer爬虫神器详解
launch使用Pyppeteer的第一步就是启动浏览器,就是相当于我们点击桌面上的浏览器图标一样,把它运行起来。用Pyppeteer完成同样的操作,只需要调用launch方法就行了。先看一下laun...【详细内容】
2021-03-04  Search: pyppeteer  点击:(918)  评论:(0)  加入收藏
超越selenium的爬虫神器Pyppeteer
在写爬虫的时候,为了效率我们通常会选择解析网页api来获取数据,但是有时候解析方式比较困难,或者我们纯粹是为了快速实现爬虫,会使用浏览器自动化操作,说起这一点,肯定第一个想到...【详细内容】
2020-10-27  Search: pyppeteer  点击:(542)  评论:(0)  加入收藏
▌简易百科推荐
Meta如何将缓存一致性提高到99.99999999%
介绍缓存是一种强大的技术,广泛应用于计算机系统的各个方面,从硬件缓存到操作系统、网络浏览器,尤其是后端开发。对于Meta这样的公司来说,缓存尤为重要,因为它有助于减少延迟、扩...【详细内容】
2024-04-15    dbaplus社群  Tags:Meta   点击:(1)  评论:(0)  加入收藏
SELECT COUNT(*) 会造成全表扫描?回去等通知吧
前言SELECT COUNT(*)会不会导致全表扫描引起慢查询呢?SELECT COUNT(*) FROM SomeTable网上有一种说法,针对无 where_clause 的 COUNT(*),MySQL 是有优化的,优化器会选择成本最小...【详细内容】
2024-04-11  dbaplus社群    Tags:SELECT   点击:(0)  评论:(0)  加入收藏
10年架构师感悟:从问题出发,而非技术
这些感悟并非来自于具体的技术实现,而是关于我在架构设计和实施过程中所体会到的一些软性经验和领悟。我希望通过这些分享,能够激发大家对于架构设计和技术实践的思考,帮助大家...【详细内容】
2024-04-11  dbaplus社群    Tags:架构师   点击:(0)  评论:(0)  加入收藏
Netflix 是如何管理 2.38 亿会员的
作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员 的演讲。她在...【详细内容】
2024-04-08    InfoQ  Tags:Netflix   点击:(3)  评论:(0)  加入收藏
即将过时的 5 种软件开发技能!
作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈(微信号:blog51cto) 时至今日,AI编码工具已经进化到足够强大了吗?这未必好回答,但从2023 年 Stack Overflow 上的调查数据来看,44%...【详细内容】
2024-04-03    51CTO  Tags:软件开发   点击:(8)  评论:(0)  加入收藏
跳转链接代码怎么写?
在网页开发中,跳转链接是一项常见的功能。然而,对于非技术人员来说,编写跳转链接代码可能会显得有些困难。不用担心!我们可以借助外链平台来简化操作,即使没有编程经验,也能轻松实...【详细内容】
2024-03-27  蓝色天纪    Tags:跳转链接   点击:(15)  评论:(0)  加入收藏
中台亡了,问题到底出在哪里?
曾几何时,中台一度被当做“变革灵药”,嫁接在“前台作战单元”和“后台资源部门”之间,实现企业各业务线的“打通”和全域业务能力集成,提高开发和服务效率。但在中台如火如荼之...【详细内容】
2024-03-27  dbaplus社群    Tags:中台   点击:(11)  评论:(0)  加入收藏
员工写了个比删库更可怕的Bug!
想必大家都听说过删库跑路吧,我之前一直把它当一个段子来看。可万万没想到,就在昨天,我们公司的某位员工,竟然写了一个比删库更可怕的 Bug!给大家分享一下(不是公开处刑),希望朋友们...【详细内容】
2024-03-26  dbaplus社群    Tags:Bug   点击:(8)  评论:(0)  加入收藏
我们一起聊聊什么是正向代理和反向代理
从字面意思上看,代理就是代替处理的意思,一个对象有能力代替另一个对象处理某一件事。代理,这个词在我们的日常生活中也不陌生,比如在购物、旅游等场景中,我们经常会委托别人代替...【详细内容】
2024-03-26  萤火架构  微信公众号  Tags:正向代理   点击:(14)  评论:(0)  加入收藏
看一遍就理解:IO模型详解
前言大家好,我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢,先问问大家几个问题哈~什么是IO呢?什么是阻塞非阻塞IO?什么是同步异步IO?什么是IO多路复用?select/epoll...【详细内容】
2024-03-26  捡田螺的小男孩  微信公众号  Tags:IO模型   点击:(10)  评论:(0)  加入收藏
站内最新
站内热门
站内头条