您的位置:首页 > 新闻资讯 >文章内容
几十亿的网络爬虫都在干啥?大量的爬虫用代理IP抢票去了
来源:互联网 作者:admin 时间:2019-03-21 17:04:19

  根据去年的互联网恶意爬虫分析报告,我们才知道实际上,全网每天要遭受几十亿恶意爬虫的攻击。而我们之前只知道互联网中至少有一半的流量是爬虫产生的,现在看来,恶意爬虫越来越多,估计有七八成的流量都是来自于这些网络爬虫。这几十亿的网络爬虫都在干啥?


  其实爬虫本来是个好东西,以谷歌搜索为例,在符合Robots协议规范的基础上,通过爬取其他网站的页面,提供给用户快捷搜索和访问的便利,对于搜索者和被搜索者来说本是一件共赢的事情,所以最早源于搜索引擎的爬虫是非常善意的。


  但爬虫毕竟不产生数据,作为拥有获取数据能力的搬运工,在市场对数据日益增大的需求之下,尤其伴随“大数据”概念的兴起,越来越多地催生了“恶意爬虫”打破君子协定,疯狂且贪婪地吮吸着有价值的数据,以此来谋取暴利。


  给你看一张图:


几十亿的网络爬虫都在干啥?大量的爬虫用代理IP抢票去了


  这张图里显示的,就是各行各业被爬“叨扰”的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。


  恶意爬虫流量排名TOP10的行业,出行、社交、电商三巨头果然还是数据产生最多的地方,也是恶意爬虫的主要战场。


  下面以出现抢票为例进一步分析情况:


  出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着12306去的。这不意外,全中国卖火车票的独此一家别无分号。


  你还记得当年史上最坑图片验证码么?这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单的机械点击,它不认识哪个明星,所以很大一部分爬虫就被挡在了门外。


  你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。没错,抢票软件也不是吃素的,它们在和铁总搞“对抗”。


  有一种东西叫做“打码平台”,你可以了解一下。


  打码平台雇佣了兼职人员,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。


  当然,这样的打码平台还有记忆功能。如果兼职人员已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306系统里的图片就被标记完了,机器自己都能认识,兼职人员都可以坐在一边斗地主了。


  你可能会问:为什么12306这么抠呢?它大方地让爬虫随意爬会死吗?


  答:会死。


  你知道每年过年之前,12306被点成什么样了吗?公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。


  况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?


  铁路被爬虫“点鸡”成这样已经够惨了,但它还有个难兄难弟,就是航空。


  而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。


  很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷X度假之首选。


  为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。


  本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。


  据我所知,他们是这样玩的:


  技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。


  亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后0.00001秒之后,就帮你用你的名字预定了这张票。


  由于频繁的访问网页,网站会进行IP访问频率的限制,因此想要一直访问,这爬虫是需要使用代理IP的,不停的切换不同的IP地址继续访问。使用代理IP,可以找代理精灵,高匿名,非常好用。


相关文章内容简介
推荐阅读
  • 28 2019-04
    动态IP代理能快速增加阅读量

    动态IP代理能快速增加阅读量,有些人可能会比较拒绝,其实互联网中的大部分浏览量都是爬虫贡献的,只是你不知道摆了。

  • 21 2019-11
    代理IP的网络协议

    你知道代理IP使用的是什么网络协议吗?代理IP有HTTPS代理、Socks代理、HTTP代理,这三种代理,今天我们就跟着机灵代理的脚步来好好认识一下是通过什么协议来进行工作的。

  • 25 2019-02
    Java爬虫之匿名代理IP的获取

    爬虫,AI一直是近年来为之关注的焦点,Java以自己独有的严格的语言约束和庞大且成熟的各种框架,成为企业一度的选择,也成为当今码农必知必会的编程语言。

  • 30 2019-07
    爬虫可以尝试换IP大规模访问

    爬虫可以尝试换IP大规模访问,因为很多时候网站都设置了IP限制,这是为了防止爬虫某段时间大规模访问,那么爬虫怎么办呢?如果避免对方封IP的这种情况。在自己进行访问时最好可以尝试换

  • 11 2019-07
    上哪里找大量可用动态ip代理?

    上哪里找大量可用动态ip代理?同样是采集数量,为什么抓取的数据越多,需要的动态ip越多呢?

  • 21 2020-02
    IE怎么设置ip代理使用

     代理服务器的功能就是代理网络用户去取得网络信息,也可以比喻为是网络信息的中转站。如果你想要突破访问限制,代理服务器可以帮助你,如果你想要隐藏自己的IP地址,代理服务器同样

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部