您的位置:首页 > 新闻资讯 >文章内容
python爬虫解决验证码问题的三种方法
来源:互联网 作者:admin 时间:2019-02-05 09:49:00

  爬虫经常遇到网站的反爬虫,比如IP限制,可以使用代理精灵的海量IP来解决限制,但是对于验证码限制,大家又是怎么突破这个限制的呢?


  验证码是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于 计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。


  我们使用Python进行爬虫时经常遇到一些障碍,其中验证码算是最普遍的了,如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。


  1.用cookie


python爬虫解决验证码问题的三种方法


  2.用session


python爬虫解决验证码问题的三种方法


  3.elenium+手动构造cookie


python爬虫解决验证码问题的三种方法


  这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。


  以上介绍了关于爬虫突破验证码的问题,当然了这只是其中会遇到的其中一种问题的解决方法,其他关于IP被封,爬取受限、违法操作等多种问题,在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。


相关文章内容简介
推荐阅读
  • 12 2019-06
    使用代理服务器怎么设置

    使用代理服务器怎么设置?其实很简单的,我们的设备通常都支持设置代理服务器使用的,有些软件也会支持设置的。下面机灵代理小编给大家介绍两种使用代理服务器怎么设置的方法。

  • 19 2019-11
    代理IP如何帮助文章刷阅读数?

    现在是软推广的时代,硬广对于勾起消费者的购物欲望已经失去魔力了。所以我们需要将一些推广软文来发布在网络不同平台上,可是如果阅读量很少怎么办呢?下面代理IP跟大家一起关注这个问

  • 20 2019-08
    看看代理IP可以用在哪些方面

    代理IP根据隐秘性,有透明代理、普通匿名代理、高级匿名代理这几种划分,那么根据不同的代理IP,它们的应用场景有哪些方面呢?

  • 22 2019-10
    数据爬虫需要优质代理IP

    针对网站对爬虫的限制,单个IP对网站的访问次数是有限的,就是说你不可能通过几个IP就像把整个网站的信息给读取下来,这简直是天方夜谭。

  • 12 2019-05
    更换IP地址隐藏IP信息的软件

    更换IP地址隐藏IP信息的软件介绍!现在互联网走进了每家每户,电脑和手机更是不用说。很多人都会在日常生活中收到陌生用户发来的网址或者是一些陌生信息。这些陌生信息中一边都存在着

  • 16 2019-12
    代理IP对注册投票的好处!

    代理IP对注册投票的好处!使用代理ip​用于投票或者注册方面有着十分优质的好处,因为很多网站都有对IP地址进行限制,为了能够突破这些限制达到重复投票和注册的效果,使用代理ip进行更换

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部