您的位置:首页 > 新闻资讯 >文章内容
爬虫采用代理IP突破网站限制
来源:互联网 作者:admin 时间:2019-06-27 11:24:33

  爬虫采用代理IP突破网站限制,实现高频爬取!虽然不是所有网站都会监控流量来源,但是一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。


  这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。


  那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。


爬虫采用代理IP突破网站限制


  所以真正的想用代理IP来做爬虫,还是找付费的比较好,推荐机灵代理。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。


  我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)


  所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。


  从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。


  在使用机灵代理获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。


  比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。


  但是很多网站都采取了IP限制的,爬虫采用代理IP突破网站限制,这样比较安全,对方也不会封IP,否则分分钟被封到生不如死呢。


相关文章内容简介
推荐阅读
  • 29 2020-07
    IP代理池的维护步骤

    代理IP池是爬虫项目必备的一环,你要准备够源源不断的IP作为弹药,才能够顺利开展爬虫工作。毕竟你也不想爬虫半途而废,浪费心血是吧?

  • 06 2019-12
    HTTP代理服务器工作原理图解

    HTTP协议之前机灵代理​也做了不少相应的介绍,代理服务器也是要根据不同的网络协议来进行运作的。下面我们一同来看看HTTP代理服务器的工作原理:

  • 27 2019-03
    IP购买的价格是怎样计算的?

    现在各大网站服务商在推出扩展性服务器时,最优势的就是这些IP地址是可以购买的,其够买的价格也是非常合理的,如果大家有需要的话就可以直接与服务商进行沟通,他们会根据你需要的IP

  • 20 2019-02
    爬虫的请求头应该怎写不会被发现?

    网站的反爬虫存在于整个爬虫获取数据流程里面,爬虫首先会遇到请求的问题,如果爬虫不伪装浏览器发送请求,那么就会被网站检测到爬虫,从而禁止访问,拒绝返回信息。那么爬虫的请求头

  • 11 2019-04
    羊毛党为何要使用IP代理这个换IP工具?

    羊毛党为何要使用IP代理这个换IP工具?很多人其实薅羊毛是不了解的,举个简单的例子来说,信用卡刷积分换取礼物。通常商家都会推出一些活动,而通过这些活动来获取利益的人就被称为羊

  • 08 2020-09
    网络代理ip应用的理由

    为什么在网络中可以看到那么多代理ip的使用?大家需要用换ip软件的理由是什么呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部