您的位置:首页 > 新闻资讯 >文章内容
爬虫使用代理IP后,还遇到IP问题怎么处理
来源:互联网 作者:admin 时间:2019-02-16 16:17:35

    对爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能会遇到同一个IP访问过于频繁的问题,网站就会让我们输入验证码或登录或直接封锁IP,这样会给爬取带来极大的不便。


    而通过使用代理隐藏IP,让服务器误以为是用户在请求自己,在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。比如使用代理精灵,海量的IP资源随意切换,高匿名可以更好的隐藏起用户的真实IP。


爬虫使用代理IP后,还遇到IP问题怎么处理


    但即使使用了代理IP,也不能百分百的保障不会遇到问题,或者IP不会被封了,因为爬虫毕竟不是真正的用户,在使用的过程中可能会因为行为问题暴露了,又或者是代理IP有效性低,经常出现IP效果,导致出问题,还有其他的一些原因也会影响效果。如何解决这些问题?下面跟小编一起去看看:


    1、web端做了一层缓存


    挑选一定数量的ip,每隔2-3分钟,进行检测,这个检测就不需要是爬取的网站的url,因为测试过能够连接代理访问即可,例如baidu之类的比较大众的网站.


    2、使用了bloomfilter进行判重


    获取的代理ip可能之前有判定重复的,通过检查判重,减少资源消耗。每隔一定时间bf会被清空,python本身自带bf,当时好像遇到什么问题了,实际使用与需求有点不符,具体记不清楚了,最后摒弃了自带的bf,使用了别人的一个bf on redis的项目.paramiao/pydrbloomfilter其实我就是想用用bf而已.造轮子花费时间,就暂时不造了.


    3、代理ip通过轮询的方式给出


    后续想更新算法,根据时间与计数挑选。


    4、多进程进行ip判定


    防止数量太多进程一直运行.目前判定进程数是直接配置在配置文件中的,后面想做到自适应.


    5、数据库使用redis


    redis这里作为两点,一个是数据存储,一个是web的缓存.而且redis本身又不是很大.用在这里很适合.而且bf-redis项目中,也在使用redis.


    6、目标网站检测使用的反爬虫方式


    代理ip,随机agent,带cookie访问。


    以上介绍了关于爬虫遇到IP问题时如何处理的方法,由于IP会失效,这可能会遇到许多问题,大家对于找出原因,对症下药处理。


相关文章内容简介
推荐阅读
  • 28 2019-01
    爬虫伪装成浏览器后可以更换IP,突破网站的反爬虫机制

    面对网站的反爬虫机制,爬虫应该怎么办呢?若是爬虫稍微加快速度爬取数据,很快就会被网站的反爬虫机制检测到异常,并进行封IP处理,这样爬虫就无法完成任务了。那么爬虫应该如何伪装

  • 26 2019-10
    爬虫实战案例:抓取京东图片

    利用爬虫程序,我们可以实现不同的数据抓取,可以抓取文字信息,也可以抓取音频信息、图片信息等。机灵代理下面带来一个爬虫案例实战分享。

  • 20 2020-10
    找哪个换IP软件使用比较好

    网站都对IP访问有一定的限制,若是超过一定请求次数,就会对其进行屏蔽,那这样会导致请求中断,无法获取所有的信息,这如何解决呢?

  • 05 2019-09
    手机怎么用动态IP代理?

    手机是不是也能够用代理IP更换IP?现在很多网络操作都转移到手机端上了,手机换IP的需求也变得多。那么,手机切换不同地区的IP是可行的吗?

  • 05 2019-07
    国内最好的爬虫代理有什么特点?

    国内最好的爬虫代理有什么特点?网络爬虫想要快速的完成要采集的数据,爬虫代理是少不了的,有了爬虫代理,能够突破网站的访问频率限制,速度是蹭蹭上涨的。

  • 25 2019-11
    高质量代理IP要怎么识别?

    代理IP的服务商有很多,代理IP的数量也看着有很多,但是选择越大,普通用户就越难去分辨出哪些才是真实优质的代理IP。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部