您的位置:首页 > 新闻资讯 >文章内容
获取10000个代理IP要多久?
来源:互联网 作者:admin 时间:2019-03-15 15:45:52

  很多企业都需要使用到网络爬虫,主要是用于爬取数据。而网络爬虫难点主要集中在用户登录问题,屏蔽IP,验证码问题,如何做到分布式,以及异步请求问题。对于这些问题,我们要一步一步来解决,首先我们来看看屏蔽IP的问题。


  屏蔽IP,我们要解决,不可能等解封的,要等到网站解封这些IP,不知道要何年何月呢?那该怎么办呢?


  网站屏蔽IP的唯一先决条件是检测到你的IP访问频率过快,解决的方式有两种:第一种是降低抓取频率,这样也就降低了抓取效率。第二种是使用大量的代理IP来进行抓取。二者之中,最快的解决方法就是使用代理IP。


获取10000个代理IP要多久?


  之前一直通过购买代理IP的方式来解决,但是花销有点大,到最后快上万了,因为网上的代理IP都是按量购买的,而我们爬取的话基本长则都是一两个月的,虽说一天也就不到几十块钱,但是量大啊,还得考虑并发等等问题。实在是没辙,开始建立自己的IP库。比如在百度一搜免费代理IP里面下面一系列的代理IP网站都出来了


  也许有人问:这不是这么多的代理IP吗,直接拿来用不就可以了嘛?我呵呵!!!接下来的您就不用看了。


  上面虽说免费代理IP一大片,但是能用的还是少量的,现在我们要解决的就是如果从这里面检索出那些可用的代理IP来,持续累计自然就形成了自己的代理IP库。


  通过这种方式,爬取一天的话可以获取到上千的可用代理IP,效果还是不错的。那么如果要获取10000个代理IP要多久?


  从代理IP网站抓取代理IP本质上也是爬虫,代理IP网站也设置了反爬机制,大概在获取4000个代理IP左右就会被封IP,从而需要使用代理来获取代理IP。


  和网上的经验不同,有些网前100页的代理IP可用率还是比较高的,基本上有九成。但是可能会有"检验有效的代理IP不一定能用"和"第一次检验失效的代理IP可能以后能用"的问题,这也是我将代理IP和有效的代理IP分别存储在两张表的原因。


  使用代理IP时,构建成http和https可能会导致截然不同的结果,同样,将目标url写成http或https可能会导致程序正常运行和报错两种结果。


  由于程序使用了网络,并且循环次数较多。因此我多次使用了continue跳出循环,但是获取有效的代理IP还是成功率比较高的。


  获取10000个代理IP的速度基本上需要五个小时,实在太慢了,后续如果改进程序的话可能会尝试多线程。


  如果大家对多线程也感兴趣,可以看看代理精灵关于多线程的一些介绍了,本文暂不介绍。


相关文章内容简介
推荐阅读
  • 21 2019-02
    代理IP分类有哪些?用那种代理更安全

    ​用户通常通过代理来突破限制,如局域网对上网用户的端口、目的网站、协议、游戏、即时通讯软件等的限制,网站对于IP的访问频率、访问次数的限制等

  • 08 2019-05
    爬取目标网站要准备http代理和用户代理

    爬取目标网站要准备http代理和用户代理,此外,还需要其他一些准备工作,比如应对cookie,还有Referer之类的,如果没有做好这些措施,结果肯定是不理想的,有一个地方被拦截了,也是会影响

  • 14 2019-05
    IP代理在爬虫抓取中的作用

    IP代理在爬虫抓取中的作用大吗?我们都知道爬虫抓取可能被限制的,比如说我们经常在做数据爬取过程中遇到这样的情况:

  • 12 2019-11
    全面认识HTTP报文语法

    HTTP的报文语法是什么?可以分为多少种类型?下面由机灵代理来给大家全方面介绍HTTP报文的语法知识。

  • 19 2019-12
    我们应如何隐藏IP保护隐私?

    我们应如何隐藏IP保护隐私?互联网+时代,网络攻击事件的发生概率是越来越大了,不要以为自己只是普通用户,也没有什么“机密”可被窃取。你对个人信息可是也被不少不法分子虎视眈眈着

  • 16 2019-10
    使用代理IP分布式爬虫

    分布式爬虫这种抓取方式能够帮助爬虫工作者提高工作效率,不仅是爬虫进度得到了提升,而且数据抓取的速度也有飞跃进步。那么使用代理IP进行分布式爬虫要怎么进行呢?以下是操作教程:

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部