您的位置:首页 > 新闻资讯 >文章内容
获取10000个代理IP要多久?
来源:互联网 作者:admin 时间:2019-03-15 15:45:52

  很多企业都需要使用到网络爬虫,主要是用于爬取数据。而网络爬虫难点主要集中在用户登录问题,屏蔽IP,验证码问题,如何做到分布式,以及异步请求问题。对于这些问题,我们要一步一步来解决,首先我们来看看屏蔽IP的问题。


  屏蔽IP,我们要解决,不可能等解封的,要等到网站解封这些IP,不知道要何年何月呢?那该怎么办呢?


  网站屏蔽IP的唯一先决条件是检测到你的IP访问频率过快,解决的方式有两种:第一种是降低抓取频率,这样也就降低了抓取效率。第二种是使用大量的代理IP来进行抓取。二者之中,最快的解决方法就是使用代理IP。


获取10000个代理IP要多久?


  之前一直通过购买代理IP的方式来解决,但是花销有点大,到最后快上万了,因为网上的代理IP都是按量购买的,而我们爬取的话基本长则都是一两个月的,虽说一天也就不到几十块钱,但是量大啊,还得考虑并发等等问题。实在是没辙,开始建立自己的IP库。比如在百度一搜免费代理IP里面下面一系列的代理IP网站都出来了


  也许有人问:这不是这么多的代理IP吗,直接拿来用不就可以了嘛?我呵呵!!!接下来的您就不用看了。


  上面虽说免费代理IP一大片,但是能用的还是少量的,现在我们要解决的就是如果从这里面检索出那些可用的代理IP来,持续累计自然就形成了自己的代理IP库。


  通过这种方式,爬取一天的话可以获取到上千的可用代理IP,效果还是不错的。那么如果要获取10000个代理IP要多久?


  从代理IP网站抓取代理IP本质上也是爬虫,代理IP网站也设置了反爬机制,大概在获取4000个代理IP左右就会被封IP,从而需要使用代理来获取代理IP。


  和网上的经验不同,有些网前100页的代理IP可用率还是比较高的,基本上有九成。但是可能会有"检验有效的代理IP不一定能用"和"第一次检验失效的代理IP可能以后能用"的问题,这也是我将代理IP和有效的代理IP分别存储在两张表的原因。


  使用代理IP时,构建成http和https可能会导致截然不同的结果,同样,将目标url写成http或https可能会导致程序正常运行和报错两种结果。


  由于程序使用了网络,并且循环次数较多。因此我多次使用了continue跳出循环,但是获取有效的代理IP还是成功率比较高的。


  获取10000个代理IP的速度基本上需要五个小时,实在太慢了,后续如果改进程序的话可能会尝试多线程。


  如果大家对多线程也感兴趣,可以看看代理精灵关于多线程的一些介绍了,本文暂不介绍。


相关文章内容简介
推荐阅读
  • 31 2019-03
    怎么获得长期有效的http代理?

    一般是大家使用的代理都是动态ip,都是短效的代理,有效时间估计也就几分钟,久一点的也有半小时左右的,但这有效时间对于一些项目来说,还是太短了,那么怎么获得长期有效的http代理呢

  • 02 2020-03
    使用代理ip都有哪些益处

    代理IP,是一种信息服务,根据应用新的网络ip来替代本身网络ip开展浏览和实际操作。人们在上外网的情况下,能够根据代理商IP来替代自身的真正IP,那样做有哪些好处呢?

  • 05 2019-07
    爬虫伪装请求头还是伪装IP地址好?

    爬虫伪装请求头还是伪装IP地址好?由于互联网上许多平台有限制,因此爬虫是无法直接去爬取网站的信息,最好的办法是伪装成为用户去爬取,怎么伪装呢?爬虫伪装请求头还是伪装IP地址好

  • 26 2019-06
    代理IP池多大比较合适?

    代理IP池多大比较合适?代理IP池的大小影响价格,有些人觉得自己使用的代理IP数量比较少,不需要使用多大的代理IP池,那么租用多大的代理IP池比较合适呢?

  • 01 2019-04
    python爬虫遇到301、302状态码怎么回事?

    每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。

  • 29 2019-04
    爬虫代理的有效性检测

    爬虫代理的有效性检测,这是一个必要的步骤,如果不进行检测就直接使用,对效率影响比较大。如果是有效率高的爬虫代理还好,如果有效率低,则不停的遇到无效IP。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部