您的位置:首页 > 新闻资讯 >文章内容
爬虫使用代理IP后,还遇到IP问题怎么处理
来源:互联网 作者:admin 时间:2019-02-16 16:17:35

    对爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能会遇到同一个IP访问过于频繁的问题,网站就会让我们输入验证码或登录或直接封锁IP,这样会给爬取带来极大的不便。


    而通过使用代理隐藏IP,让服务器误以为是用户在请求自己,在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。比如使用代理精灵,海量的IP资源随意切换,高匿名可以更好的隐藏起用户的真实IP。


爬虫使用代理IP后,还遇到IP问题怎么处理


    但即使使用了代理IP,也不能百分百的保障不会遇到问题,或者IP不会被封了,因为爬虫毕竟不是真正的用户,在使用的过程中可能会因为行为问题暴露了,又或者是代理IP有效性低,经常出现IP效果,导致出问题,还有其他的一些原因也会影响效果。如何解决这些问题?下面跟小编一起去看看:


    1、web端做了一层缓存


    挑选一定数量的ip,每隔2-3分钟,进行检测,这个检测就不需要是爬取的网站的url,因为测试过能够连接代理访问即可,例如baidu之类的比较大众的网站.


    2、使用了bloomfilter进行判重


    获取的代理ip可能之前有判定重复的,通过检查判重,减少资源消耗。每隔一定时间bf会被清空,python本身自带bf,当时好像遇到什么问题了,实际使用与需求有点不符,具体记不清楚了,最后摒弃了自带的bf,使用了别人的一个bf on redis的项目.paramiao/pydrbloomfilter其实我就是想用用bf而已.造轮子花费时间,就暂时不造了.


    3、代理ip通过轮询的方式给出


    后续想更新算法,根据时间与计数挑选。


    4、多进程进行ip判定


    防止数量太多进程一直运行.目前判定进程数是直接配置在配置文件中的,后面想做到自适应.


    5、数据库使用redis


    redis这里作为两点,一个是数据存储,一个是web的缓存.而且redis本身又不是很大.用在这里很适合.而且bf-redis项目中,也在使用redis.


    6、目标网站检测使用的反爬虫方式


    代理ip,随机agent,带cookie访问。


    以上介绍了关于爬虫遇到IP问题时如何处理的方法,由于IP会失效,这可能会遇到许多问题,大家对于找出原因,对症下药处理。


相关文章内容简介
推荐阅读
  • 11 2020-05
    独享IP池的优缺点是什么

    独享IP池和共享IP池的优缺点是什么?独享IP池是一个人使用的IP池,共享IP池是很多人共同使用的IP池,它们都有什么优点和缺点呢?我们从各方面一起来分析下吧。

  • 10 2019-09
    什么是socks5协议的TCP认证?

    之前我们了解过socks5代理IP是怎么使用的?这种代理IP类型的使用越来越多,对于程序员而言,更好的了解它的工作原理以及相关知识,能够更加高效的开展工作,那么接下来,让我们解析socks5协

  • 28 2019-08
    手机也能用动态IP代理吗?

    电脑换IP我们比较常使用,那么如果你的手机需要进行IP地址切换,你知道有什么方法可以实现吗?其实原理跟PC端是一致的,只要通过代理IP软件就可以很方便使用,下面我们来看看具体是怎样操

  • 08 2019-05
    透明与高匿代理IP的区别

    透明与高匿代理IP的区别,你知道多少?在代理IP被人们所熟知的大环境下,常常有一些词汇,例如透明代理IP,高匿代理IP,那么这里的透明指的是什么呢?高匿又是指什么呢?

  • 12 2019-10
    适合爬虫使用的动态转发代理IP是什么?

    看到网上推荐爬虫适合使用动态转发的代理IP,这是什么原因呢?为什么动态转发会更加适合爬虫工作者来使用,今天机灵代理就来跟大家好好介绍一下。

  • 21 2019-06
    代理IP的匿名度会影响稳定性吗

    代理IP的匿名度会影响稳定性吗?我们知道,代理分为透明代理、普通匿名代理和高级匿名代理三种,有很多朋友疑问:高级匿名代理是否比普通匿名代理更稳定,普通匿名是否比透明代理更稳

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部