您的位置:首页 > 新闻资讯 >文章内容
数据采集光有代理IP还不够
来源:互联网 作者:admin 时间:2019-06-03 14:01:03

  数据采集光有代理IP还不够,还需要突破其他的反爬虫,例如伪造User-Agent和伪造cookies等等。本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好。


  一 、伪造User-Agent


  在请求头中把User-Agent设置成浏览器中的User-Agent,来伪造浏览器访问。比如:


  headers={‘User-Agent’:‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’}


  resp=requests.get(url,headers=headers)


  在每次重复爬取之间设置一个时间间隔,可以是随机得。


  比如:time.sleep(random.randint(0,3)) # 暂停0~3秒的整数秒,时间区间:[0,3]


  或:time.sleep(random.random()) # 暂停0~1秒,时间区间:[0,1)


  而且最主要的是ua要越多越好,不要固定的使用那几个,要经常更换最新真实的ua。


  二、伪造cookies


  如果从浏览器中可以正常访问一个页面,则可以将浏览器中的cookies复制过来使用,比如:


  如果从浏览器中可以正常访问一个页面,则可以将浏览器中的cookies复制过来使用,比如: cookies = dict(uuid=‘b18f0e70-8705-470d-bc4b-09a8da617e15’,UM_distinctid=‘15d188be71d50-013c49b12ec14a-3f73035d-100200-15d188be71ffd’) resp = requests.get(url,cookies = cookies)


  把浏览器的cookies字符串转成字典 def cookies2dict(cookies): items = cookies.split(’;’) d = {} for item in items: kv = item.split(’=’,1) k = kv[0] v = kv[1] d[k] = v return d 注:用浏览器cookies发起请求后,如果请求频率过于频繁仍会被封IP,这时可以在浏览器上进行相应的手工验证(比如点击验证图片等),然后就可以继续正常使用该cookies发起请求。


  注:用浏览器cookies发起请求后,如果请求频率过于频繁仍会被封IP,这时可以在浏览器上进行相应的手工验证(比如点击验证图片等),然后就可以继续正常使用该cookies发起请求。


  三、使用代理


  我们在大数据采集中,尤其是大量数据采集中更有体会,很多网站都设置了反爬虫得措施,严格限制IP,对IP得封锁限制是非常严重得。对于爬虫来说,在采集得时候,最烦得就是这种事情。


  可以换着用多个代理IP来进行访问,防止同一个IP发起过多请求而被封IP,比如:


数据采集光有代理IP还不够


  可见,数据采集光有代理IP还不够,不管我们采集什么网站的数据,光有代理是不行的,要配合多种反爬策略一起才能更高效的获取大量的数据。


相关文章内容简介
推荐阅读
  • 29 2019-05
    代理IP帮助直播提高点击

    代理IP帮助直播提高点击,这个方法是否可行?近几年直播平台发展非常火爆,直播已经成为当下时代的一种潮流,无论你在哪,肯定都会发现身边的人在玩直播。很多有才艺的主播们投身于直

  • 03 2019-04
    网站和网络爬虫之间谁胜谁负?看你的代理IP好不好用

    网络爬虫能够为一些企业带来便利,但是对于其他人来说,这可能并不是什么好事。因为网络爬虫收集到的信息,除了对数据收集者有好处之外,会给其他人带来不少的麻烦.

  • 03 2019-07
    挑选代理IP商要看几点

    挑选代理IP商要看几点,产品总由质量只差的,想要找更好的,那么比对是非常重要的。一家好的代理IP商要能够保证以下几点:

  • 14 2019-08
    抓取免费的代理IP怎么使用

    抓取免费的代理IP怎么使用?当我们需要通过代理访问某一网站时,首先需要从redis中随机选出一个代理ip,然后尝试通过代理ip是否能连到我们需要访问的目标网站,因为这些代理IP是公共使用

  • 04 2020-11
    电脑换IP的方法教学

    一般情况下,电脑IP地址不能随意修改,但是由于工作需要或者其他原因,大家不得不切换IP地址,那么问题来了,如何修改电脑IP地址?很多人被这个问题难住了,其实操作很简单,快来看看文

  • 26 2019-04
    在scrapy中实现代理ip自动切换

    在scrapy中实现代理ip自动切换,这个难吗?因为我们的爬虫需要去爬取数据,这自然少不了代理IP的,如果能够在scrapy中实现代理ip自动切换,会大大的提高了爬虫的效率,更快的完成任务,关键

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部