您的位置:首页 > 新闻资讯 >文章内容
几十亿的网络爬虫都在干啥?大量的爬虫用代理IP抢票去了
来源:互联网 作者:admin 时间:2019-03-21 17:04:19

  根据去年的互联网恶意爬虫分析报告,我们才知道实际上,全网每天要遭受几十亿恶意爬虫的攻击。而我们之前只知道互联网中至少有一半的流量是爬虫产生的,现在看来,恶意爬虫越来越多,估计有七八成的流量都是来自于这些网络爬虫。这几十亿的网络爬虫都在干啥?


  其实爬虫本来是个好东西,以谷歌搜索为例,在符合Robots协议规范的基础上,通过爬取其他网站的页面,提供给用户快捷搜索和访问的便利,对于搜索者和被搜索者来说本是一件共赢的事情,所以最早源于搜索引擎的爬虫是非常善意的。


  但爬虫毕竟不产生数据,作为拥有获取数据能力的搬运工,在市场对数据日益增大的需求之下,尤其伴随“大数据”概念的兴起,越来越多地催生了“恶意爬虫”打破君子协定,疯狂且贪婪地吮吸着有价值的数据,以此来谋取暴利。


  给你看一张图:


几十亿的网络爬虫都在干啥?大量的爬虫用代理IP抢票去了


  这张图里显示的,就是各行各业被爬“叨扰”的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。


  恶意爬虫流量排名TOP10的行业,出行、社交、电商三巨头果然还是数据产生最多的地方,也是恶意爬虫的主要战场。


  下面以出现抢票为例进一步分析情况:


  出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着12306去的。这不意外,全中国卖火车票的独此一家别无分号。


  你还记得当年史上最坑图片验证码么?这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单的机械点击,它不认识哪个明星,所以很大一部分爬虫就被挡在了门外。


  你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。没错,抢票软件也不是吃素的,它们在和铁总搞“对抗”。


  有一种东西叫做“打码平台”,你可以了解一下。


  打码平台雇佣了兼职人员,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。


  当然,这样的打码平台还有记忆功能。如果兼职人员已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306系统里的图片就被标记完了,机器自己都能认识,兼职人员都可以坐在一边斗地主了。


  你可能会问:为什么12306这么抠呢?它大方地让爬虫随意爬会死吗?


  答:会死。


  你知道每年过年之前,12306被点成什么样了吗?公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。


  况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?


  铁路被爬虫“点鸡”成这样已经够惨了,但它还有个难兄难弟,就是航空。


  而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。


  很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷X度假之首选。


  为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。


  本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。


  据我所知,他们是这样玩的:


  技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。


  亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后0.00001秒之后,就帮你用你的名字预定了这张票。


  由于频繁的访问网页,网站会进行IP访问频率的限制,因此想要一直访问,这爬虫是需要使用代理IP的,不停的切换不同的IP地址继续访问。使用代理IP,可以找代理精灵,高匿名,非常好用。


相关文章内容简介
推荐阅读
  • 20 2019-03
    怎么写个免费的开源IP代理池?

    凡是使用网络爬虫的用户都知道,爬虫的标配是代理IP,没有代理IP,爬虫基本上属于寸步难行的,但是如果一直都要使用代理IP,每个项目需求的IP量也多,成本可不低,能不能使用免费的呢?

  • 25 2019-03
    scylla可作爬虫的代理IP池吗?搭建代理IP池方法

    网站平台出于各方面的考虑,都会有自己的一些保护措施,为了避免禁止恶意爬虫的大量采集给网站造成不好的影响,网站的反爬虫机制越加完善。这对于网络爬虫来说,这并不是一件好事,越

  • 08 2020-05
    机灵代理ip都是高质量代理ip

    很多用户选择了高质量的代理IP,但在使用过程中质量却不尽人意。所以在购买的时候就要对IP质量进行检测,那么,代理IP提供的质量怎么判断呢?

  • 05 2019-12
    用CURL命令测试代理IP

    我们在代理IP网站购买的相应的IP服务之后,这些代理IP是需要经过授权然后才可以使用的,这是处于对每一个用户的IP使用质量的保障,不同代理IP网站有对应的授权方式,比如绑定终端或者是

  • 31 2019-12
    爬虫需要掌握哪些技术?

    爬虫需要掌握哪些技术?使用爬虫采集数据已经成为了现在的一种风尚和流行,或者说大数据在未来会变得愈发重要,学习和使用爬虫的人也变得越来越多,那么我们在使用学习爬虫时需要掌握

  • 19 2019-04
    动态ip代理软件的选购攻略

    大家知道动态ip代理软件的选购攻略吗?由于IP限制,很多工作都不能重复的进行,这对于一部分来说讲是不利于工作的,于是他们开始使用动态ip代理软件,这样可以换其他的IP使用,就没有限

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部