您的位置:首页 > 新闻资讯 >文章内容
IP代理池的组成以及搭建过程中遇到的问题
来源:互联网 作者:admin 时间:2019-04-04 18:10:50

我们搭建IP代理池,一般都是选择免费的,不过免费的采集也简单,无非就是:访问页面页面 —> 正则/xpath提取 —> 保存。下面我们来看看IP代理池的组成以及遇到的问题。

IP代理池由四部分组成:

  • ProxyApi:用flask写的接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。

  • ProxyGetter: 爬取免费代理

  • Schedule:调度。定时检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理。看代码好像是5分钟跑一次ProxyGetter。

  • DB:存储模块。使用SSDB,或者redis做可用代理队列的存储。



IP代理池的组成以及搭建过程中遇到的问题

会遇到哪些比较常见的问题:

由于整个项目的校验机制延时比较长,代码如下:

IP代理池的组成以及搭建过程中遇到的问题

每分钟校验一次可用代理,10分钟爬一次免费网站的代理。我个人感觉校验代理的世界太长了,可以看看我的测试。

跑了一天,代理池记录的代理如图

IP代理池的组成以及搭建过程中遇到的问题


我特别写的校验机制,循环20次校验拿到的代理可用数,如图:

IP代理池的组成以及搭建过程中遇到的问题


第一次校验通过24个代理可用,第二次只有18,中间耗时4s

IP代理池的组成以及搭建过程中遇到的问题


20次校验后,得到的可用代理只有13个

IP代理池的组成以及搭建过程中遇到的问题


由于项目校验可用代理延时为1分钟,最初可用代理76个。当我使用脚本校验20次后,可用的只有13个。意味着在这段时间内,可用的稳定的代理只有13/76,不到20%的稳定率。

在实际使用中,不管使用何种代理,校验都是必不可少的,但是不到20%的代理可用,这会对爬虫造成巨大的干扰,至少在我看来,在这种机制下,校验的IP还具有很大的提升空间。

解决问题的思路:

由于是爬取其他网站的活动代理,我们并不在乎我们单位时间的请求数,只需要在当下的代理可用即可。解决核心:76个IP其实还不如5个较为稳定的IP,我们如何让这76个IP变成5个可用的稳定的IP成为这个项目可以应用在实际工程中的核心。

总的来说通过代理绕过很多网站的确是很好的办法,但是高端的反爬虫越来越依托于秘钥校验等等,硬实力越来越重要。代理永远都只是一个工具,爬虫工程师的核心永远都是自己的对抗能力。不过找代理,可以找机灵代理。


相关文章内容简介
推荐阅读
  • 21 2019-05
    用代理IP怎么选择加速线路?

    用代理IP怎么选择加速线路?多少人曾经一度因为游戏延迟、掉线、卡机等原因差点放弃游戏,但好在有机灵代理的存在,轻松搞定网络问题,才得以继续游戏,不过,在选择加速线路方面,玩

  • 12 2019-09
    代理IP教你爬虫实现前端页面渲染

    之前网站基本都是用后端渲染的,而随着技术的不断更新进步,像AJAX技术的普及等,开始用前端渲染的页面开始变多了。下面机灵代理IP为大家讲讲有关前端渲染的操作。

  • 12 2019-08
    IP代理助力营销刷票有效果吗

    IP代理助力营销刷票有效果吗?在很多的网络营销以及市场营销的工作中,可能不断地点击或是投票,更或是某些需要不断点入操作的工作需要处理,为的就是增加虚拟的人气。但是不得不说的

  • 30 2019-12
    高匿代理对爬虫的重要性!

    高匿代理对爬虫的重要性!在进行爬虫采集数据的过程当中,我们经常会遇到爬虫被目标网站限制ip访问频率,为了攻克这个难题让爬虫采集数据变得顺利,我们必须使用代理ip来变换爬虫的ip访

  • 04 2019-09
    Python爬虫怎么减少被封?

    网站反爬虫机制让不少爬虫工作者非常头痛,总是爬虫爬到一半就被封掉,手中能用的IP越来越少,不过这个问题一般用代理IP就能解决。想要爬虫的时候减少被发现的概率,那么你需要做到以

  • 23 2019-09
    从事网络工作为什么要用代理IP?

    为什么开展互联网工作,做网络营销需要用到代理IP?代理IP在这当中起到的作用是什么呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部