您的位置:首页 > 新闻资讯 >文章内容
爬虫采用代理IP突破网站限制
来源:互联网 作者:admin 时间:2019-06-27 11:24:33

  爬虫采用代理IP突破网站限制,实现高频爬取!虽然不是所有网站都会监控流量来源,但是一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。


  这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。


  那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。


爬虫采用代理IP突破网站限制


  所以真正的想用代理IP来做爬虫,还是找付费的比较好,推荐机灵代理。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。


  我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)


  所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。


  从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。


  在使用机灵代理获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。


  比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。


  但是很多网站都采取了IP限制的,爬虫采用代理IP突破网站限制,这样比较安全,对方也不会封IP,否则分分钟被封到生不如死呢。


相关文章内容简介
推荐阅读
  • 31 2019-05
    机灵代理带你Get修改IP的用处

    修改IP,这是非常常见的事情,不过修改IP都有什么用呢?修改ip也就是更改设备的ip,可以称为网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个代理中转与另一

  • 18 2019-07
    爬虫ip90%来自国内代理服务器

    爬虫ip90%来自国内代理服务器,这是为什么?为什么爬虫需要使用ip代理呢?我们来看看爬虫是如何采集的,为何需要ip代理,以及这些ip代理的来源问题。

  • 04 2019-07
    找个能用的高匿名IP代理

    找个能用的高匿名IP代理,网上很多不能用的免费IP代理,而且很多都是透明的,或者普通匿名的,效果不好,需要找个能用的高匿名IP代理。

  • 10 2020-04
    被封IP如何用代理IP解决

    很多用户在平时使用贴吧、微博、论坛等平台时,发帖的数量会被要求,频繁后就会被封IP。出现这种情况,想继续发帖,可以用代理IP来解决。

  • 23 2019-04
    代理IP简单访问网页的设置方法

    代理IP简单访问网页的设置方法,大家是否有知道呢?现在网站的限制比较多,如果频繁访问可能会引起限制,但如果设置了代理IP,这会降低被封的风险。

  • 02 2020-04
    python爬虫都有哪些类型

    爬虫技术就是一个高效的下载系统,能够将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。根据具体应用的不同,爬虫系统虽然在许多细节方面存在差异,但大体可以将爬虫系

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部