您的位置:首页 > 新闻资讯 >文章内容
Python怎么绕过验证码问题?
来源:互联网 作者:admin 时间:2019-03-05 17:07:56

  使用网络不可避免的会遇到验证码,或者在登录账号时出现验证码,或者在访问过快时出现验证码,实在是太烦恼了,能不能绕过验证码呢?可以利用Python实现吗?


  验证码被设计出来主要是用于验证你是一个真正的人还是机器,来防止电脑自动填写表单。但是随着深度学习和计算机视觉的兴起,它们现在往往很容易被攻破。下面来了解下Python怎么绕过验证码问题,以图形验证码为例:


  首先寻找测试网站,验证码一般如下:


Python怎么绕过验证码问题?


  1.可以看出有微弱的干扰线和较强的干扰点,如何处理呢?进行灰度处理,把彩色验证码图片转为灰色的图片。


  2.二值化处理,将图片处理为只有黑白两色的图片,这里发现干扰线没有了,这就意味着我们只需要处理干扰点即可。


Python怎么绕过验证码问题?


  3.降噪处理,去除小黑点,也就是孤立的黑色像素点,获得验证码。


  4.分割,我们可以看到,每一张验证码都有四个字符,通过观察收集的训练集,我们可以知道字符的类型。根据字符的类型,我们先新建几个文件夹,用于存储分割后的验证码图片。然后根据之前保存下来的验证码训练集的答案,对处理好的验证码图片进行分割并保存。


  5.选取特征值,首先我们要明白,并不能直接将图像与其对应的字符相匹配,而是将图像与图像的特征值相匹配,再将图像的特征值与相应的字符相匹配。所以要对图像里的文字进行识别,首先要提取出该图像中的特征值。每个图像可以有多个特征值,我们将图像的所有特征值组成一条向量,将图像与它的特征向量相匹配。


  但是,根据选取规则的不同,一个图像可以有不同的特征向量。例如:选取图像不同颜色点的个数组成特征向量、选取图像不同颜色像素点占总像素点的比例组成特征向量等。因此,我们需要先确定一个特征向量的选取规则,之后可根据识别效果对选取规则进行修改。


  在确定了选取规则后,我们便可以提取每张验证码的特征向量了。在此之后,我们可以再做一步工作,即将训练集中每张验证码的特征向量按照其对应字符存储下来,找到特征值并保存下来,以便之后的识别。


  6.简单的识别,按常规而言,完成特征向量的提取,我们应该要用这些特征向量,训练出一个模型。但事实上,得到了这些特征向量之后,我们就已经能够对验证码进行简单的识别了。


  对于一张新获得的验证码,我们需要对它进行与处理训练集相同的处理操作(灰度化、二值化、去噪、分割等),并用相同的规则得到它的特征向量(记为V)。之后我们只需要遍历训练集,找到与V最“接近”的向量,并得到该向量所对应的字符。


  以上介绍了关于Python怎么绕过验证码问题,仅供大家参考。若是认为此方法比较麻烦的,也可以选择使用其他的识别方法,或者是人工打码的。


 


相关文章内容简介
推荐阅读
  • 12 2019-04
    没有客户?可以用代理IP去爬取用户信息吗?

    没有客户?可以用代理IP去爬取用户信息吗?有时候大家总会接到各类的推销电话,我们的信息是如何泄露出去的呢?这些业务人员是怎么拿到我们的电话信息?下面就以装修行业来说下:

  • 29 2019-03
    爬虫借用代理IP抓取简历,是不是很简单?

    对于信息泄露,大家可能是深有体会的,比如你在一个网站留了电话想要开店,不用多久,十几家销售就打电话过来了。又或者,你想换工作,把简历放到招聘网上,即使是保密设置,仅对投放

  • 01 2019-07
    价格不贵且稳定性好的http代理

    价格不贵且稳定性好的http代理,这难找吗?真的是不容易噢,一般都是质量差的,价格才低,有些质量一般价格还老高了,所有说想淘个好用的http代理,这不容易的呢?

  • 17 2020-02
    免费代理IP为什么不安全

    在使用代理IP的时候,大家都喜欢用免费的,因为不花钱,但是很多人都说免费代理IP不安全,还有很多用户不了解。那么,免费代理IP为什么不安全?

  • 20 2019-07
    分布式ip代理池怎么搭建?

    分布式ip代理池怎么搭建?爬虫程序的正常运行,这是需要大量的ip资源来维持的,如果没有这些ip资源,也就是ip代理池,爬虫程序将要停止工作或者极大的降低抓取的速度,因此ip代理池是非

  • 06 2019-12
    购买代理IP无法提取?

    有一个专门的爬虫代理IP池,是每一个专业爬虫工程师的标配,面对大规模、高频次的爬虫,我们需要通过不停的切换IP地址,才能够避开网站的封锁。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部