您的位置:首页 > 新闻资讯 >文章内容
python爬虫解决验证码问题的三种方法
来源:互联网 作者:admin 时间:2019-02-05 09:49:00

  爬虫经常遇到网站的反爬虫,比如IP限制,可以使用代理精灵的海量IP来解决限制,但是对于验证码限制,大家又是怎么突破这个限制的呢?


  验证码是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于 计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。


  我们使用Python进行爬虫时经常遇到一些障碍,其中验证码算是最普遍的了,如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。


  1.用cookie


python爬虫解决验证码问题的三种方法


  2.用session


python爬虫解决验证码问题的三种方法


  3.elenium+手动构造cookie


python爬虫解决验证码问题的三种方法


  这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。


  以上介绍了关于爬虫突破验证码的问题,当然了这只是其中会遇到的其中一种问题的解决方法,其他关于IP被封,爬取受限、违法操作等多种问题,在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。


相关文章内容简介
推荐阅读
  • 18 2019-05
    高匿名代理ip使用格式

    高匿名代理ip使用格式与普通的IP地址格式是一样的,并无什么不同。我们先来看看普通IP地址的格式:

  • 26 2019-07
    HTTP代理IP质量太差怎么找个好的?

    HTTP代理IP质量太差怎么找个好的?网络爬虫在如今的互联网领域有着特别的意义,比如我们耳熟能详的大数据,它的发展就离不开网络爬虫。然而网络爬虫也是有天敌的,那就是目标网站的反爬

  • 29 2019-09
    代理IP详解子网掩码的实现

    子网掩码是一种用来指明一个IP地址的哪些位标识的是主机所在的子网,以及哪些位标识的是主机的位掩码。子网掩码不能单独存在,它必须结合IP地址一起使用。子网掩码只有一个作用,就是

  • 08 2019-05
    爬虫代理常用于解决IP受限问题

    爬虫代理常用于解决IP受限问题,主要是由于网络爬虫请求过于频繁引起的,而且大部分的网站都是有限制的,相信很多朋友在爬虫工作者经常会遇到“您的请求太过频繁,请稍后再试”,这个

  • 18 2019-03
    对于个人来说拉票数量有限,是否可以使用代理IP自动刷票?

    投票这个活动,一直是存在的,常见于朋友圈的投票,也有网络投票。对于个人来说,拉票数量有限,无法获得大量的票数,有些人为了拿到高票数,或许进行各种拉票,甚至刷票,这是怎么办

  • 01 2019-11
    了解http连接的常见流程与请求处理过程

    http这个互联网协议是我们使用网络的时候经常会用的,为了加深大家对互联网的了解,机灵代理今天带来http连接的常见流程、从TCP编程看HTTP请求处理过程的分享:

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961