您的位置:首页 > 新闻资讯 >文章内容
爬虫使用代理IP后,还遇到IP问题怎么处理
来源:互联网 作者:admin 时间:2019-02-16 16:17:35

    对爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能会遇到同一个IP访问过于频繁的问题,网站就会让我们输入验证码或登录或直接封锁IP,这样会给爬取带来极大的不便。


    而通过使用代理隐藏IP,让服务器误以为是用户在请求自己,在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。比如使用代理精灵,海量的IP资源随意切换,高匿名可以更好的隐藏起用户的真实IP。


爬虫使用代理IP后,还遇到IP问题怎么处理


    但即使使用了代理IP,也不能百分百的保障不会遇到问题,或者IP不会被封了,因为爬虫毕竟不是真正的用户,在使用的过程中可能会因为行为问题暴露了,又或者是代理IP有效性低,经常出现IP效果,导致出问题,还有其他的一些原因也会影响效果。如何解决这些问题?下面跟小编一起去看看:


    1、web端做了一层缓存


    挑选一定数量的ip,每隔2-3分钟,进行检测,这个检测就不需要是爬取的网站的url,因为测试过能够连接代理访问即可,例如baidu之类的比较大众的网站.


    2、使用了bloomfilter进行判重


    获取的代理ip可能之前有判定重复的,通过检查判重,减少资源消耗。每隔一定时间bf会被清空,python本身自带bf,当时好像遇到什么问题了,实际使用与需求有点不符,具体记不清楚了,最后摒弃了自带的bf,使用了别人的一个bf on redis的项目.paramiao/pydrbloomfilter其实我就是想用用bf而已.造轮子花费时间,就暂时不造了.


    3、代理ip通过轮询的方式给出


    后续想更新算法,根据时间与计数挑选。


    4、多进程进行ip判定


    防止数量太多进程一直运行.目前判定进程数是直接配置在配置文件中的,后面想做到自适应.


    5、数据库使用redis


    redis这里作为两点,一个是数据存储,一个是web的缓存.而且redis本身又不是很大.用在这里很适合.而且bf-redis项目中,也在使用redis.


    6、目标网站检测使用的反爬虫方式


    代理ip,随机agent,带cookie访问。


    以上介绍了关于爬虫遇到IP问题时如何处理的方法,由于IP会失效,这可能会遇到许多问题,大家对于找出原因,对症下药处理。


相关文章内容简介
推荐阅读
  • 25 2019-04
    代理服务器的匿名度怎么区分?

    代理服务器的匿名度怎么区分?有些人不清楚,其实代理服务器有匿名程度的分类,比如大家经常使用的高匿名,还有一些大家不知道的透明代理。但很多人也仅是知道这么一点,如果知道我们

  • 22 2019-11
    如何验证代理IP是否起到作用?

    现在购买代理IP来上网的用户相比之前要多很多了,因为大家都开始慢慢对自己的真实IP地址以及网络环境安全有一个重视。那么,用来代理IP我们怎么能够直观知道自己的代理是否奏效呢?

  • 13 2020-08
    代理IP地址又是什么

    在使用网络做数据采集,效果补量等业务的时候通常会使用到代理IP,那么什么是代理IP呢?代理IP地址又是什么呢?

  • 30 2020-04
    IP代理软件的作用

    我们的日常上网需要一个单独的IP地址,通常我们是经过IP地址访问网页,而IP代理就相当于一个中间商平台,我们通过这个平台来访问网页而不是直接访问。在访问记录里留下的是代理ip的地址

  • 21 2019-08
    如何适当利用动态IP做SEO优化?

    做刚开始做SEO的时候,流量可能会比较少,除了通过竞价广告和免费引流之外,我们还能够通过什么途径去增加网站流量,提升排名呢?这里分享利用动态IP进行引流的方式,不过要注意方法去用

  • 06 2019-05
    http代理质量对python爬虫有影响吗?

    http代理质量对python爬虫有影响吗?由于大数据时代的到来,使用爬虫的去抓取信息的时候越来越多,而爬虫需要使用http代理的,这对http代理有什么要求呢?质量会不会有影响呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部