您的位置:首页 > 新闻资讯 >文章内容
IP代理池的组成以及搭建过程中遇到的问题
来源:互联网 作者:admin 时间:2019-04-04 18:10:50

我们搭建IP代理池,一般都是选择免费的,不过免费的采集也简单,无非就是:访问页面页面 —> 正则/xpath提取 —> 保存。下面我们来看看IP代理池的组成以及遇到的问题。

IP代理池由四部分组成:

  • ProxyApi:用flask写的接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。

  • ProxyGetter: 爬取免费代理

  • Schedule:调度。定时检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理。看代码好像是5分钟跑一次ProxyGetter。

  • DB:存储模块。使用SSDB,或者redis做可用代理队列的存储。



IP代理池的组成以及搭建过程中遇到的问题

会遇到哪些比较常见的问题:

由于整个项目的校验机制延时比较长,代码如下:

IP代理池的组成以及搭建过程中遇到的问题

每分钟校验一次可用代理,10分钟爬一次免费网站的代理。我个人感觉校验代理的世界太长了,可以看看我的测试。

跑了一天,代理池记录的代理如图

IP代理池的组成以及搭建过程中遇到的问题


我特别写的校验机制,循环20次校验拿到的代理可用数,如图:

IP代理池的组成以及搭建过程中遇到的问题


第一次校验通过24个代理可用,第二次只有18,中间耗时4s

IP代理池的组成以及搭建过程中遇到的问题


20次校验后,得到的可用代理只有13个

IP代理池的组成以及搭建过程中遇到的问题


由于项目校验可用代理延时为1分钟,最初可用代理76个。当我使用脚本校验20次后,可用的只有13个。意味着在这段时间内,可用的稳定的代理只有13/76,不到20%的稳定率。

在实际使用中,不管使用何种代理,校验都是必不可少的,但是不到20%的代理可用,这会对爬虫造成巨大的干扰,至少在我看来,在这种机制下,校验的IP还具有很大的提升空间。

解决问题的思路:

由于是爬取其他网站的活动代理,我们并不在乎我们单位时间的请求数,只需要在当下的代理可用即可。解决核心:76个IP其实还不如5个较为稳定的IP,我们如何让这76个IP变成5个可用的稳定的IP成为这个项目可以应用在实际工程中的核心。

总的来说通过代理绕过很多网站的确是很好的办法,但是高端的反爬虫越来越依托于秘钥校验等等,硬实力越来越重要。代理永远都只是一个工具,爬虫工程师的核心永远都是自己的对抗能力。不过找代理,可以找机灵代理。


相关文章内容简介
推荐阅读
  • 27 2019-05
    代理服务器伪装IP原理

    代理服务器伪装IP原理是怎样的?使用代理服务器,一般都是为了伪装IP,达到隐藏IP地址的目的,或者是共享网络之类的,如果使用代理服务器伪装IP其原理是如何的呢?

  • 04 2019-07
    用了代理IP还报错怎么回事?

    用了代理IP还报错怎么回事?由于网站有预防限制,因此想要高频率的访问,还需要使用代理IP的,但是时候了代理IP,这效果却没有想象中那么的好。

  • 17 2019-06
    有没有好用的代理IP做数据采集

    有没有好用的代理IP做数据采集?因为爬虫去抓取数据的话,对代理IP的要求要相对高些,不然老是被拦住,采集不到,这就麻烦了。因此,找个好用的代理IP是非常重要的,而且还不好找。

  • 18 2019-06
    用静态IP和动态IP代理的网速哪个快

    用静态IP和动态IP代理的网速哪个快?我们现在使用的IP大多数都是动态的,是不是使用静态IP比动态IP网速会更加快呢?不然为什么别人的网速这么快的呢?

  • 29 2019-05
    抢票封IP怎么解决

    抢票封IP怎么解决?每逢节日,一票难求,各种代刷票上线。如果使用软件刷票,这是很容易被封IP的,使用同一个IP刷票,这是不可行的。那么这抢票封IP怎么解决呢?为何有“黄牛”能抢到票

  • 13 2019-06
    代理ip按照什么分类?

    代理ip按照什么分类?代理ip的分类跟我们有什么关系?这当然是有关系的,如果不清楚,选择了不多的代理ip类型使用,就达不到需要的效果,例如平台是https协议的,而我们使用http代理ip去突

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961