您的位置:首页 > 新闻资讯 >文章内容
爬虫被识别是不是用了透明代理
来源:互联网 作者:admin 时间:2019-06-26 14:46:02

  爬虫被识别是不是用了透明代理?有时候爬虫在采集数据时,使用代理IP,有的代理IP没事,有的代理IP直接重定向,这是不是代理IP质量问题?


  于是很多人都怀疑是商家的代理IP质量问题,认为使用的代理IP并不是高匿名的,而是其中渗透了其他的代理,例如透明,或者普匿名代理。


  其实这并不能说明使用的代理IP不是髙匿,至于为什么会重定向,很有可能是触发了反爬策略。


爬虫被识别是不是用了透明代理


  对于如何判断代理IP是否髙匿,只是看会不会被识别,这是不全面的。很多朋友也有这样的观点,认为用了髙匿代理IP就一定能成功,不然就是透明代理IP,普匿代理IP。其实这样的观点是不正确的,并不是用了髙匿代理IP,就可以忽略反爬虫策略了,那样的话,也就不用反反爬虫了,用上髙匿代理IP,一路爬过去就完事了。


  那么如何判断一个代理IP是否髙匿代理IP呢?


  其实要想识别IP代理的匿名等级并不复杂,只需要通过脚本程序(如ASP PHP JSP等)即可在服务器端识别出来,识别的办法就是抓数据包里的相关字段:REMOTE_ADDR,HTTP_VIA以及HTTP_X_FORWARDED_FOR。


  高匿代理


  REMOTE_ADDR = Proxy IP


  HTTP_VIA = not determined


  HTTP_X_FORWARDED_FOR = not determined


  透明代理会向目标服务器透露自己的真实IP,普匿代理会向目标服务器透露用了代理,髙匿代理什么都不透露给目标服务器。


  由此可见,用透明代理和普匿代理被识别的几率非常大,只要好好做了反爬策略的网站一般都可以轻而易举的识别,使用髙匿代理IP的话,虽然不能轻而易举的被识别,但也不是说就不能被识别了,触发了反爬策略依然会被识别,被限制,比如访问频率,次数,User-Agent,cookies,reprefer等等很多因素,而且反爬策略是会不断的升级的,相应的反反爬策略也要不断的升级。


  这就说明了,“爬虫被识别是不是用了透明代理”这个说法是不成立的,除了保持代理IP的高匿名性,其他方面的措施也是要做好的,否则功亏一篑。


相关文章内容简介
推荐阅读
  • 18 2019-07
    HTTP代理保障爬虫程序顺利抓取

    HTTP代理保障爬虫程序顺利抓取,这是爬虫非常重要的工具之一,如果没有HTTP代理,会严重的影响到爬虫的工作效率,为什么呢?

  • 09 2019-10
    phantomjs怎么设置代理IP?

    java使用selenium,phantomjs进行模拟浏览器访问,请问如何在不重新启动phantomjs的情况下修改代理IP?查阅了相关资料,selenium 官方文档都没有说明,想必是不支持的,那么我们不妨考虑直接用 phantomjs

  • 25 2019-11
    怎么通过随机UA来突破爬虫?

    突破网络爬虫限制的方法有很多,有使用代理IP来换IP的,也有的是验证码限制的。今天,机灵代理要给大家详细介绍的一种方法就是使用随机UA。什么是随机UA呢?我们一起来认识一下怎么操作。

  • 26 2019-03
    代理ip地址的选择方法和所需时间

    现在由于经济和其他方面的快速发展,不仅仅是个人企业,也需要这种大数据的支持,然后根据自己获得的这些数据制定适合自己的营销方案,当然关于这种数据的搜集还是需要这种代理IP,现

  • 27 2020-09
    https代理IP哪家性价比高

    其实在如今的https代理ip市场上存在着这样一个普遍的现象,很多人很需要这样的功能来对自己进行帮助,但是去到各类平台一查价格却都望而却步。其实主要的原因是这种平台的功能的定价都

  • 13 2019-12
    如何选择高质量代理?

    如何选择高质量代理?代理ip​可以帮助我们快速更换ip地址,从而能够辅助我们的工作和业务的开展,高效率高质量的代理ip则是我们开展工作的重要前提,如今市面上的代理ip如此之多,我们该

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部