您的位置:首页 > 新闻资讯 >文章内容
爬虫使用代理IP后,还遇到IP问题怎么处理
来源:互联网 作者:admin 时间:2019-02-16 16:17:35

    对爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能会遇到同一个IP访问过于频繁的问题,网站就会让我们输入验证码或登录或直接封锁IP,这样会给爬取带来极大的不便。


    而通过使用代理隐藏IP,让服务器误以为是用户在请求自己,在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。比如使用代理精灵,海量的IP资源随意切换,高匿名可以更好的隐藏起用户的真实IP。


爬虫使用代理IP后,还遇到IP问题怎么处理


    但即使使用了代理IP,也不能百分百的保障不会遇到问题,或者IP不会被封了,因为爬虫毕竟不是真正的用户,在使用的过程中可能会因为行为问题暴露了,又或者是代理IP有效性低,经常出现IP效果,导致出问题,还有其他的一些原因也会影响效果。如何解决这些问题?下面跟小编一起去看看:


    1、web端做了一层缓存


    挑选一定数量的ip,每隔2-3分钟,进行检测,这个检测就不需要是爬取的网站的url,因为测试过能够连接代理访问即可,例如baidu之类的比较大众的网站.


    2、使用了bloomfilter进行判重


    获取的代理ip可能之前有判定重复的,通过检查判重,减少资源消耗。每隔一定时间bf会被清空,python本身自带bf,当时好像遇到什么问题了,实际使用与需求有点不符,具体记不清楚了,最后摒弃了自带的bf,使用了别人的一个bf on redis的项目.paramiao/pydrbloomfilter其实我就是想用用bf而已.造轮子花费时间,就暂时不造了.


    3、代理ip通过轮询的方式给出


    后续想更新算法,根据时间与计数挑选。


    4、多进程进行ip判定


    防止数量太多进程一直运行.目前判定进程数是直接配置在配置文件中的,后面想做到自适应.


    5、数据库使用redis


    redis这里作为两点,一个是数据存储,一个是web的缓存.而且redis本身又不是很大.用在这里很适合.而且bf-redis项目中,也在使用redis.


    6、目标网站检测使用的反爬虫方式


    代理ip,随机agent,带cookie访问。


    以上介绍了关于爬虫遇到IP问题时如何处理的方法,由于IP会失效,这可能会遇到许多问题,大家对于找出原因,对症下药处理。


相关文章内容简介
推荐阅读
  • 02 2019-04
    网站都有限制,没有代理IP估计寸步难行

    有没有使用网络爬虫不用代理IP的,估计是比较少吧,毕竟现在各个网站都有IP限制的,如果没有这代理IP工具,估计寸步难行。

  • 17 2019-04
    python爬虫策略:验证码、前端逆向、JS Hook

    python爬虫策略有哪些?说到应对反爬虫的技术,一般都是从行为模式模拟用户,代理IP切换IP突防,或者是模拟浏览器等等,这些都是一些必会的应对方法了,另外呢,还有一些网站会设有其他

  • 14 2019-02
    购买代理IP攻略:影响IP质量因素

    在选择代理IP的时候,有些人还不知道看什么因素好,但看商家的说法是不可取的,那么当自己去选择代理IP,找什么样的会符合我们的要求?

  • 20 2019-05
    代理IP日常使用换IP地址

    代理IP日常使用换IP地址,这是由于在平时的生活和工作中,我们经常会遇到更换IP的问题。每每这个时候就是最令人头疼的时候了。这就是传说中的“书到用时方恨少”。其实作为我们普通人,

  • 10 2019-04
    最新ip代理软件--维护隐私安全

    最新ip代理软件--维护隐私安全,以前大家都没有认识到IP的重要性,对于自己的IP地址都没有想过去保护的,但是现在如果还是这样,会很吃亏的,为什么呢?

  • 03 2019-06
    用了ip代理服务器软件打不开网页

    用了ip代理服务器软件打不开网页,这是怎么回事呢?到底是ip代理服务器软件有问题,是什么原因呢?

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961