您的位置:首页 > 新闻资讯 >文章内容
爬虫使用代理IP后,还遇到IP问题怎么处理
来源:互联网 作者:admin 时间:2019-02-16 16:17:35

    对爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能会遇到同一个IP访问过于频繁的问题,网站就会让我们输入验证码或登录或直接封锁IP,这样会给爬取带来极大的不便。


    而通过使用代理隐藏IP,让服务器误以为是用户在请求自己,在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。比如使用代理精灵,海量的IP资源随意切换,高匿名可以更好的隐藏起用户的真实IP。


爬虫使用代理IP后,还遇到IP问题怎么处理


    但即使使用了代理IP,也不能百分百的保障不会遇到问题,或者IP不会被封了,因为爬虫毕竟不是真正的用户,在使用的过程中可能会因为行为问题暴露了,又或者是代理IP有效性低,经常出现IP效果,导致出问题,还有其他的一些原因也会影响效果。如何解决这些问题?下面跟小编一起去看看:


    1、web端做了一层缓存


    挑选一定数量的ip,每隔2-3分钟,进行检测,这个检测就不需要是爬取的网站的url,因为测试过能够连接代理访问即可,例如baidu之类的比较大众的网站.


    2、使用了bloomfilter进行判重


    获取的代理ip可能之前有判定重复的,通过检查判重,减少资源消耗。每隔一定时间bf会被清空,python本身自带bf,当时好像遇到什么问题了,实际使用与需求有点不符,具体记不清楚了,最后摒弃了自带的bf,使用了别人的一个bf on redis的项目.paramiao/pydrbloomfilter其实我就是想用用bf而已.造轮子花费时间,就暂时不造了.


    3、代理ip通过轮询的方式给出


    后续想更新算法,根据时间与计数挑选。


    4、多进程进行ip判定


    防止数量太多进程一直运行.目前判定进程数是直接配置在配置文件中的,后面想做到自适应.


    5、数据库使用redis


    redis这里作为两点,一个是数据存储,一个是web的缓存.而且redis本身又不是很大.用在这里很适合.而且bf-redis项目中,也在使用redis.


    6、目标网站检测使用的反爬虫方式


    代理ip,随机agent,带cookie访问。


    以上介绍了关于爬虫遇到IP问题时如何处理的方法,由于IP会失效,这可能会遇到许多问题,大家对于找出原因,对症下药处理。


相关文章内容简介
推荐阅读
  • 11 2019-05
    付费代理IP如何使用?

    付费代理IP如何使用?相对来说,肯定是付费代理IP自然是质量更好的,不然谁会那么傻,花钱来使用?

  • 08 2019-08
    高质量代理ip有助于爬虫破限制持续工作

    高质量代理ip有助于爬虫破限制持续工作,因此无论爬虫程序有多么的优秀,也是离不开高质量代理ip的帮助,否则马上就会出现IP被封的情况,没有代理ip的更换,没法动。

  • 24 2019-04
    爬虫代理为什么会用于电子商务行业?

    爬虫代理为什么会用于电子商务行业?我们知道爬虫是需要使用爬虫代理的,但是为什么电子商务行业也要使用爬虫代理呢?这其实跟商品的价格有关,众所周知,很多电商平台都有自动调价功

  • 24 2019-04
    找爬虫代理要关注IP数量、高并发、多终端

    找爬虫代理要关注IP数量、高并发、多终端,这三个方面,为什么呢?其实很多人购买爬虫代理时,都会把IP可用率作为购买第一参考因素。其实市面上的的IP资源基本都是租用代理拨号服务器,

  • 26 2019-07
    数据采集遇上IP地址被封怎么办?

    数据采集遇上IP地址被封怎么办?我要抓取一个网站的内容,需要访问那个网站,不过由于访问太频繁,他们反爬程序就会封锁我的IP或者暂时不让我的IP去访问,而且程序就会时常链接失败,中

  • 14 2019-02
    用付费代理IP怎么搭建IP池的方法

    面对网站的IP限制,爬虫们通常是使用代理IP来突破的,这样不仅可以一直访问,还可以提高效率。那么使用什么代理IP好呢?

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961