您的位置:首页 > 新闻资讯 >文章内容
IP代理池的组成以及搭建过程中遇到的问题
来源:互联网 作者:admin 时间:2019-04-04 18:10:50

我们搭建IP代理池,一般都是选择免费的,不过免费的采集也简单,无非就是:访问页面页面 —> 正则/xpath提取 —> 保存。下面我们来看看IP代理池的组成以及遇到的问题。

IP代理池由四部分组成:

  • ProxyApi:用flask写的接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。

  • ProxyGetter: 爬取免费代理

  • Schedule:调度。定时检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理。看代码好像是5分钟跑一次ProxyGetter。

  • DB:存储模块。使用SSDB,或者redis做可用代理队列的存储。



IP代理池的组成以及搭建过程中遇到的问题

会遇到哪些比较常见的问题:

由于整个项目的校验机制延时比较长,代码如下:

IP代理池的组成以及搭建过程中遇到的问题

每分钟校验一次可用代理,10分钟爬一次免费网站的代理。我个人感觉校验代理的世界太长了,可以看看我的测试。

跑了一天,代理池记录的代理如图

IP代理池的组成以及搭建过程中遇到的问题


我特别写的校验机制,循环20次校验拿到的代理可用数,如图:

IP代理池的组成以及搭建过程中遇到的问题


第一次校验通过24个代理可用,第二次只有18,中间耗时4s

IP代理池的组成以及搭建过程中遇到的问题


20次校验后,得到的可用代理只有13个

IP代理池的组成以及搭建过程中遇到的问题


由于项目校验可用代理延时为1分钟,最初可用代理76个。当我使用脚本校验20次后,可用的只有13个。意味着在这段时间内,可用的稳定的代理只有13/76,不到20%的稳定率。

在实际使用中,不管使用何种代理,校验都是必不可少的,但是不到20%的代理可用,这会对爬虫造成巨大的干扰,至少在我看来,在这种机制下,校验的IP还具有很大的提升空间。

解决问题的思路:

由于是爬取其他网站的活动代理,我们并不在乎我们单位时间的请求数,只需要在当下的代理可用即可。解决核心:76个IP其实还不如5个较为稳定的IP,我们如何让这76个IP变成5个可用的稳定的IP成为这个项目可以应用在实际工程中的核心。

总的来说通过代理绕过很多网站的确是很好的办法,但是高端的反爬虫越来越依托于秘钥校验等等,硬实力越来越重要。代理永远都只是一个工具,爬虫工程师的核心永远都是自己的对抗能力。不过找代理,可以找机灵代理。


相关文章内容简介
推荐阅读
  • 01 2019-06
    玩游戏要使用长效IP么?

    玩游戏要使用长效IP么?玩游戏频繁的换IP,容易被判断为登陆环境异常,导致登陆不了游戏,那么玩游戏要使用长效IP么?

  • 22 2019-10
    代理IP的微博涨粉妙招

    经常看到微博大V在做广告,发现有一些号其实粉丝只到几十万也可以接到广告,而且一到有大型活动,商家会买一系列的大号来帮忙发推广。想要成为微博大V赚钱?代理IP先教你涨粉技巧。

  • 13 2019-04
    爬虫又是怎么突破IP限制,突破反爬的呢?代理IP管用吗?

    网站有爬虫,自然也是有反爬的,否则爬虫岂不是翻天了?网站该如何“反爬”?爬虫又是怎么突破IP限制,突破反爬的呢?代理IP管用吗?

  • 04 2019-04
    下载图片最快的方法--用IP代理绕过限制爬取

    我们需要下载大量的资料时,人工下载不知得何年何月了。就比如下载图片,一个一个下载,操作繁琐,不停的重复,还没有休息,效率也没有见提上去,有没有更快的下载方法呢?

  • 05 2019-09
    手机怎么用动态IP代理?

    手机是不是也能够用代理IP更换IP?现在很多网络操作都转移到手机端上了,手机换IP的需求也变得多。那么,手机切换不同地区的IP是可行的吗?

  • 24 2019-07
    高匿动态ip代理可用率怎么样?

    高匿动态ip代理可用率怎么样?现在的网络业务中,越来越多的用户需要使用到高匿动态ip代理。比如:

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961