您的位置:首页 > 新闻资讯 >文章内容
怎么解决爬虫被封IP?
来源:互联网 作者:admin 时间:2019-12-27 09:27:47

  怎么解决爬虫被封IP?在网络爬虫抓取信息的过程中,如果抓取频率高过了网站的设置阀值,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来标识爬虫的。


怎么解决爬虫被封IP


  于是在爬虫的开发者通常需要采取两种手段来解决这个问题:

  1、放慢抓取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的抓取量。

  2、第二种方法是通过设置代理IP等手段,突破反爬虫机制继续高频率抓取。但是这样需要多个稳定的代理IP。

  代理IP可以搜索到免费的,但是可能不太稳定,也有收费的,但是不一定划算,也可能不是长久之计。


  普通的基于ADSL拨号的解决办法

  通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,

  同时也影响到了其他网站的抓取,整体来说也会降低抓取速度。


  一种可能的解决办法

  同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的服务器,抓取过程中使用这两台服务器作为代理。


  假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的情况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。


相关文章内容简介
推荐阅读
  • 01 2019-11
    了解http连接的常见流程与请求处理过程

    http这个互联网协议是我们使用网络的时候经常会用的,为了加深大家对互联网的了解,机灵代理今天带来http连接的常见流程、从TCP编程看HTTP请求处理过程的分享:

  • 21 2019-05
    同IP地址发帖子被封怎么办?

    同IP地址发帖子被封怎么办?如今越来越多的人开始接触新媒体,因此许多公司和个人开始使用他们的新媒体来发展自己的业务。这一系列的产品推广,推广和产品营销的运作手段,通过使用现

  • 15 2019-02
    网络爬虫无处不在,无意中的链接分享就能泄露你的隐私

    搜索引擎可以根据用户的需要提供内容丰富的网上信息,相对于传统的纸质信息媒介,从根本上改变了人们获取及处理信息的习惯,极大提高了效率。

  • 30 2019-09
    用代理IP怎么连接外网?

    windows系统如果需要访问外网,像是连接外部软件进行操作,应该怎么开展呢?如果你需要从本地PC端访问Redis实例进行数据操作,可以通过在ECS上配置端口映射或者端口转发实现。

  • 28 2019-06
    爬虫用HTTP代理如何爬取信息

    爬虫用HTTP代理如何爬取信息?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外

  • 06 2020-06
    代理ip对网速的影响

    我们对于网络速度的追求是没有停止的,从1g时代发展至今,网络速度一直都是处于提升阶段。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部