您的位置:首页 > 新闻资讯 >文章内容
python爬虫解决验证码问题的三种方法
来源:互联网 作者:admin 时间:2019-02-05 09:49:00

  爬虫经常遇到网站的反爬虫,比如IP限制,可以使用代理精灵的海量IP来解决限制,但是对于验证码限制,大家又是怎么突破这个限制的呢?


  验证码是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于 计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。


  我们使用Python进行爬虫时经常遇到一些障碍,其中验证码算是最普遍的了,如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。


  1.用cookie


python爬虫解决验证码问题的三种方法


  2.用session


python爬虫解决验证码问题的三种方法


  3.elenium+手动构造cookie


python爬虫解决验证码问题的三种方法


  这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。


  以上介绍了关于爬虫突破验证码的问题,当然了这只是其中会遇到的其中一种问题的解决方法,其他关于IP被封,爬取受限、违法操作等多种问题,在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。


相关文章内容简介
推荐阅读
  • 08 2019-04
    Python爬虫框架--scrapy的运行和优缺点

    我们编写爬虫是可以使用框架的,使用了框架写爬虫会更加容易些,不过前提是我们熟悉这个框架,清楚其优缺点,这样运用起来也事半功倍的。今天就跟小编去了解下scrapy这个爬虫框架的运行

  • 03 2019-07
    爬虫代理换IP加快爬取效率

    爬虫代理换IP加快爬取效率,成效非常大,这爬虫代理是网络爬虫抓取数据必不可少的工具。

  • 19 2019-06
    高匿名http代理隐藏效果更好

    高匿名http代理隐藏效果更好,在我们日常应用的代理服务中,http代理IP可以说是最常见的,也是最被普通网民所接受的。

  • 21 2019-03
    单一IP隐藏不了活动行踪,使用代理池效果更好

    如果您的IP被竞争对手的网站服务器识别,您的活动很快就会变得可疑。网络抓取,数据挖掘和其他类似任务也是如此,这些任务需要网络“灰色区域”中的方法。但是,这些方法被越来越多的

  • 04 2019-04
    代理IP检测,有效性多少可以直接使用?

    IP检测的方法有哪些?由于IP会失效,最好在使用之前要先进行IP的检测,如果没有用了,也就没有必要再使用来访问,不然还白浪费时间。

  • 20 2019-02
    爬虫的请求头应该怎写不会被发现?

    网站的反爬虫存在于整个爬虫获取数据流程里面,爬虫首先会遇到请求的问题,如果爬虫不伪装浏览器发送请求,那么就会被网站检测到爬虫,从而禁止访问,拒绝返回信息。那么爬虫的请求头

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部