您的位置:首页 > 新闻资讯 >文章内容
代理IP检测:100个IP能用的仅有10个
来源:互联网 作者:admin 时间:2019-04-22 15:54:03

  大家知道代理IP检测方法吗?今天小编就来讲一讲代理IP检测问题,或许很多人都不知道为什么要对代理IP进行检测的,这是有原因的。要知道我们在网络中抓到的代理IP数量很大,但能用的往往连十之一二都不到,在使用前剔除掉不能用的IP就能提高我们的工作效率。


  首先说说思路:上次我们已经将抓到的IP和端口都放进了我们的MySQL数据表中,要验证肯定需要取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断代理IP是不是可以正常使用的。


  由于代码太长,一些不必要的代码就不贴出来了,下面看看curl验证代理IP的核心代码。


  //代理IP验证方法 function GetHttpStatusCode($proxy){ $curl = curl_init(); curl_setopt ($curl, CURLOPT_PROXY, $proxy);//使用代理访问 curl_setopt($curl,CURLOPT_URL,"http://www.baidu.com");//获取内容url curl_setopt($curl,CURLOPT_HEADER,1);//获取http头信息 curl_setopt($curl,CURLOPT_NOBODY,1);//不返回html的body信息 curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);//返回数据流,不直接输出 curl_setopt($curl,CURLOPT_TIMEOUT,5); //超时时长,单位秒 curl_exec($curl); $rtn= curl_getinfo($curl,CURLINFO_HTTP_CODE); curl_close($curl); return $rtn; }


  调用GetHttpStatusCode(代理IP地址:端口)方法就能返回该代理IP在访问百度首页时所返回的状态码,在需要的地方对状态码进行判断就能加以利用了。


代理IP检测:100个IP能用的仅有10个


  我在数据表中加入了抓取到代理IP的时间和代理IP被验证的时间,已经存活的时间,这样代理IP的稳定性就一目了然了。


代理IP检测:100个IP能用的仅有10个


  代理IP检测的结果,整整100个IP,最后就剩下10个左右,看来在使用之前对代理IP进行验证还是很有必要的。


  由上可见,其实免费的代理IP有效率是非常低的,建议在使用之前需要先进行坚持的,或者是使用机灵代理,95%以上的有效率,不需要检测也能直接使用。


相关文章内容简介
推荐阅读
  • 28 2019-05
    爬虫代理隐藏IP可以保护安全

    爬虫代理隐藏IP可以保护安全,这一点是毋庸置疑的,IP是上网的必要条件,没有分配IP地址这些上不了网的。上网的设备都会连接唯一的IP地址,就像我们的身份证一样。如果我们能够隐藏这个

  • 22 2019-10
    用代理IP实在太方便了

    代理IP可能大家平时不怎么需要用到,但是如果你有换IP、爬虫、隐藏IP的需求,那么就不得不要利用代理IP来操作。而且使用过之后,发现,实在是太方便了。

  • 17 2019-04
    代理IP的收集、检查、设置使用的一系列过程

    代理IP的收集、检查、设置使用的一系列过程,大家了解几点,还是这一系列过程大家都知道?对于IP的使用,大家是手动还是自动呢?

  • 03 2020-02
    代理ip如何应对反爬虫

    面对网站的反爬虫机制,我们要在爬虫之前做好相关的研究,这样才能够让爬虫程序顺利抓取到我们需要的数据。如何突破反爬虫机制,代理IP告诉你怎么做。

  • 25 2019-02
    【新手入门】Python爬虫爬取步骤分析

    网络爬虫的基本理念这里就不讲了,如果大家还没有清楚的,可以先去查一下。本文主要讲Python爬虫爬取步骤分析,很多人都分享了自己爬取的代码,其实新手是看不懂的,一篇的代码看下来,

  • 30 2019-04
    爬虫被禁不仅仅是代理IP出问题了

    爬虫被禁不仅仅是代理IP出问题了,还可能是其他的原因,但是牵一发而动全身,其他地方出问题了,也会引起IP被封,从而把爬虫给禁了。如果遇到这种情况,那么势必使要先找到原因的,比

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部