您的位置:首页 > 新闻资讯 >文章内容
使用代理IP分布式爬虫
来源:互联网 作者:admin 时间:2019-10-16 10:46:38

  分布式爬虫这种抓取方式能够帮助爬虫工作者提高工作效率,不仅是爬虫进度得到了提升,而且数据抓取的速度也有飞跃进步。那么使用代理IP进行分布式爬虫要怎么进行呢?以下是操作教程:


使用代理IP分布式爬虫


  第一:每个进程从接口API中随机取一个IP列表(比如一次提取50个IP)来循环使用,失败则再调用API获取,大概逻辑如下:


  每个线程,从接口随机取回一批IP回来,循环尝试IP列表去抓取数据;


  如果访问成功,则继续抓取下一条。


  如果失败了(比如超时、出现验证码等),再从接口取一批IP,继续尝试。


  方案缺点:IP代理都是有时间有效期的,如果提取了50个,你在一定期限内是有了前20个,后面的可能由于时间限制就用不了了。


  如果你把http请求设置的链接时间超时为3秒钟,毒物时间超时间5秒,那么这3-8秒就可能被你浪费掉,有这3-8秒能做好多事了。


  第二:每个进程从接口API中随机取一个IP来使用,失败则再调用API获取一个IP,大概逻辑如下:


  每个线程,从接口随机取回一个IP来,用这个IP去访问资源,


  如果访问成功,则继续抓下一条。


  如果失败了(比如超时、出现验证码等),再从接口随机取一个IP,继续尝试。


  方案缺点:频繁的调用API获取IP,会对代理服务器造成非常大的压力,影响API接口稳定,可能会被限制提取。这种方案不能持久稳定的运行。


  第三:先提取大量IP导入本地数据库,从数据库里面取IP,大概逻辑如下:


  在数据库里面建一个表,写一个导入脚本,每分钟请求多少次API(咨询代理IP服务商建议),把IP列表导入到数据库里面。


  在数据库里面记录好 导入时间、IP、Port、过期时间、IP可用状态 等字段;


  写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用。


  执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP。


  除了要有优质的代理IP,选择爬虫的方式也很重要,分布式爬虫能够让我们有效完成工作,深受广大爬虫工作的喜爱。


相关文章内容简介
推荐阅读
  • 28 2020-03
    爬虫可以不用ip代理吗

    现在网络数据的获得,主要是通过网络爬虫技术进行抓取的,这种技术的好处就在于能够简单快速的将数据进行爬取,不用耗费太多的人力。

  • 11 2019-07
    上哪里找大量可用动态ip代理?

    上哪里找大量可用动态ip代理?同样是采集数量,为什么抓取的数据越多,需要的动态ip越多呢?

  • 29 2020-10
    什么是定制代理IP呢

    在这个高速发展的时代,产品更新换代的很快。代理IP这个伴随着互联网而生的工具也在不断的发展中。很多人都还没有搞明白什么是代理IP,又出现了定制代理IP这一说法,令人摸不着头脑。什

  • 23 2019-04
    怎么找到合适的代理IP访问网站?

    怎么找到合适的代理IP访问网站?都知道现在是数据时代,而获取这些数据去分析的过程中,肯定是会遇到一些问题的,比如各种反爬虫机制,找个合适的代理IP是很重要的应对措施,关键是找

  • 24 2019-05
    搭建一个爬虫代理IP池

    代理对于爬虫行业来讲,是很熟悉的,因为基本上没有爬虫代理大部分的数据都拿不到手,毕竟都不是自家开的平台,想要拿数据肯定是不可能的,总有各种的陷阱等着爬虫。而爬虫代理就是一

  • 20 2019-06
    代理IP可以更换IP地址突破网络限制

    代理IP可以更换IP地址突破网络限制,很多人使用代理IP,主要是这一点,即更换IP地址突破网络限制。如果有了代理IP,我们可以不必担心店铺刷单太多而造成被封的危险,网站发帖太多而导致IP

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部