您的位置:首页 > 新闻资讯 >文章内容
python爬虫解决验证码问题的三种方法
来源:互联网 作者:admin 时间:2019-02-05 09:49:00

  爬虫经常遇到网站的反爬虫,比如IP限制,可以使用代理精灵的海量IP来解决限制,但是对于验证码限制,大家又是怎么突破这个限制的呢?


  验证码是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于 计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。


  我们使用Python进行爬虫时经常遇到一些障碍,其中验证码算是最普遍的了,如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。


  1.用cookie


python爬虫解决验证码问题的三种方法


  2.用session


python爬虫解决验证码问题的三种方法


  3.elenium+手动构造cookie


python爬虫解决验证码问题的三种方法


  这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。


  以上介绍了关于爬虫突破验证码的问题,当然了这只是其中会遇到的其中一种问题的解决方法,其他关于IP被封,爬取受限、违法操作等多种问题,在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。


相关文章内容简介
推荐阅读
  • 20 2020-02
    代理ip刷阅读量可行吗

    网络推广是被线上产品提高知名度的一种宣传方式,那么就会发一些关于自己产品为中心的优势功能等的软网,还有一些作者写一些文章没有流量,阅读量太少,很多阅读者不会点击打开阅读文

  • 06 2019-08
    因为IP问题被封找代理IP

    网络爬虫想要顺顺利利的爬取到大量的数据,这对伪装要求比较高,不然爬着爬着就突然爬不动了,明明小心翼翼的绕过了反爬机制,可怎么又被另一个反爬机制给抓住了,正所谓明枪易躲,暗

  • 18 2019-03
    爬虫使用的大量IP代理从哪里来的

    对IP需要量最大的项目之一,无疑是使用网络爬虫进行信息收集的企业或者项目,需要爬取的网页越多需求的IP量也越多,那么这些爬虫使用的大量IP从哪里来的?

  • 29 2019-05
    代理IP帮助直播提高点击

    代理IP帮助直播提高点击,这个方法是否可行?近几年直播平台发展非常火爆,直播已经成为当下时代的一种潮流,无论你在哪,肯定都会发现身边的人在玩直播。很多有才艺的主播们投身于直

  • 05 2019-06
    国内代理ip获取的三个途径

    国内代理ip获取的三个途径,分别是什么呢?随着网络的使用,越来越多的人需要使用代理ip来解决ip限制的问题,但是不知道用谁的代理ip会比较好,小编这就为大家分享下国内代理ip获取的三

  • 29 2019-04
    高效代理IP哪里找呢?

    高效代理IP哪里找呢?需要使用到代理IP的工作有点多,基本都是需要更换IP地址的,不过想更换个IP也不是那么容易的的,这对代理IP的质量有所要求。我们举个例子来看看。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部