您的位置:首页 > 新闻资讯 >文章内容
3种通过代理IP爬虫的方案
来源:互联网 作者:admin 时间:2019-08-22 13:43:11

  代理IP在爬虫业务的应用是越来越广泛,根据不同的布局,爬虫的质量效果也会有所不同,下面跟大家介绍以下3种分布式爬虫的方式,每个方案的优缺点都可以直观看到。


3种通过代理IP爬虫的方案


  方案一、每个进程从接口API中随机取一个IP来使用,失败则再调用API获取一个IP。


  1、每个进程,从接口随机取回一个ip来,用这个ip来浏览资源


  2、要是访问成功,则继续抓下一条


  3、要是失败了,再从接口随机取一个IP,继续尝试


  方案不足之处:调用API获取IP的行为非常频繁,会对代理服务器造成特别大的压力,影响API接口稳定,可能会被限制提取,无法持久稳定的运行。


  方案二:每个进程从接口API中随机取一个IP列表来反复使用,失效后再调用API获取。


  1、每个进程,从接口随机取回一批ip回来,反复试着ip目录去抓取数据


  2、要是访问成功,则继续抓取下一条


  3、要是失败了,再从接口取一批IP,继续尝试


  方案不足之处:每个IP都是有期限的,要是提取了一百个,用到第二十个时,或许剩下的大多数都无法使用了。要是设置HTTP请求时连接时间超时是3秒,读取时间超时是5秒,那么或许会耗费3-8秒的时间,在这3-8秒内可能抓取了几百次了。


  方案三:先提取大量IP导入本地数据库,从数据库里面取IP


  1、在数据库里面建一个表,写一个导入脚本,每分钟请求多少次API(这里可以咨询代理IP服务商建议),把IP列表导入到数据库里面


  2、在数据库里面记录好 导入时间、IP、Port、过期时间、IP可用状态 等字段


  3、写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用


  4、执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP


  方案优势:这种方案有效的避开了代理服务器资源的消耗,有效的分配代理IP的使用,更加的高效和稳定,保障了爬虫工作的持久性和稳定性。


  综上对比,第3种方案能够将代理IP更加有效的利用起来,而且也不会造成IP的浪费。毕竟大家也不想爬虫爬到一半就出现故障,又要排除故障,重新设置。


相关文章内容简介
推荐阅读
  • 13 2019-04
    爬虫必须用代理ip吗?不一定,但效果太差

    由于网站限制的问题,很多人都问,爬虫必须用代理ip吗?对于这个问题,大众是怎么看的呢?爬虫工作者又是怎么说的呢?我们一起去了解下吧。

  • 13 2019-06
    想大量发帖如何突破IP限制

    想大量发帖如何突破IP限制?很多平台为了用户体验,以及自身的利益,很多都是有限制的,例如IP限制,这是比较常见的。

  • 07 2019-10
    开源代理服务器介绍:Squid篇

    Squid、Privoxy、Varnish、Polipo、Tinyproxy是目前互联网常见的开源web代理服务器,机灵代理将会大家带来这些代理服务器的介绍,这样才有助于我们使用这些服务器,使用代理IP。

  • 24 2019-09
    使用代理IP完成自动投票

    代理IP的功能其实是非常强大的,除了我们常常听说的爬虫之外,还有其他渠道也能够派上用场,而其中有一些说不动你也接触过。像是互联网营销这一块,现在线上营销的比重是越来越大,大

  • 11 2019-05
    高匿代理ip在营销中的作用

    高匿代理ip在营销中的作用是怎样?之前营销都是线下的,但是网络的发展,很多营销都是在网络上的,推广范围广。不过如果是免费推广,发的数量多了,可能会被限制的,这改怎么办呢?可

  • 06 2019-08
    代理IP定期爬取并检测是否可用

    代理IP定期爬取并检测是否可用,这样代理IP池的使用性就会好很多,努力避免因为IP的失效影响工作。但也不能老盯着,最好可以弄个自动的程序,就是一个任务每隔一定时间去到目标ip代理提

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部