您的位置:首页 > 新闻资讯 >文章内容
数据采集光有代理IP还不够
来源:互联网 作者:admin 时间:2019-06-03 14:01:03

  数据采集光有代理IP还不够,还需要突破其他的反爬虫,例如伪造User-Agent和伪造cookies等等。本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好。


  一 、伪造User-Agent


  在请求头中把User-Agent设置成浏览器中的User-Agent,来伪造浏览器访问。比如:


  headers={‘User-Agent’:‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’}


  resp=requests.get(url,headers=headers)


  在每次重复爬取之间设置一个时间间隔,可以是随机得。


  比如:time.sleep(random.randint(0,3)) # 暂停0~3秒的整数秒,时间区间:[0,3]


  或:time.sleep(random.random()) # 暂停0~1秒,时间区间:[0,1)


  而且最主要的是ua要越多越好,不要固定的使用那几个,要经常更换最新真实的ua。


  二、伪造cookies


  如果从浏览器中可以正常访问一个页面,则可以将浏览器中的cookies复制过来使用,比如:


  如果从浏览器中可以正常访问一个页面,则可以将浏览器中的cookies复制过来使用,比如: cookies = dict(uuid=‘b18f0e70-8705-470d-bc4b-09a8da617e15’,UM_distinctid=‘15d188be71d50-013c49b12ec14a-3f73035d-100200-15d188be71ffd’) resp = requests.get(url,cookies = cookies)


  把浏览器的cookies字符串转成字典 def cookies2dict(cookies): items = cookies.split(’;’) d = {} for item in items: kv = item.split(’=’,1) k = kv[0] v = kv[1] d[k] = v return d 注:用浏览器cookies发起请求后,如果请求频率过于频繁仍会被封IP,这时可以在浏览器上进行相应的手工验证(比如点击验证图片等),然后就可以继续正常使用该cookies发起请求。


  注:用浏览器cookies发起请求后,如果请求频率过于频繁仍会被封IP,这时可以在浏览器上进行相应的手工验证(比如点击验证图片等),然后就可以继续正常使用该cookies发起请求。


  三、使用代理


  我们在大数据采集中,尤其是大量数据采集中更有体会,很多网站都设置了反爬虫得措施,严格限制IP,对IP得封锁限制是非常严重得。对于爬虫来说,在采集得时候,最烦得就是这种事情。


  可以换着用多个代理IP来进行访问,防止同一个IP发起过多请求而被封IP,比如:


数据采集光有代理IP还不够


  可见,数据采集光有代理IP还不够,不管我们采集什么网站的数据,光有代理是不行的,要配合多种反爬策略一起才能更高效的获取大量的数据。


相关文章内容简介
推荐阅读
  • 20 2020-01
    怎么利用爬虫抓取代理ip

    在了解机灵代理​如何通过爬虫解决代理IP方案之前,先来了解网络爬虫吧!网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网(www)上下载网页,是搜索引擎(诸如谷歌、百度、雅虎)的

  • 26 2020-08
    代理ip可以保护隐私

    从使用代理ip的隐藏级别来看,代理分为三种:高匿名代理、普通匿名代理、透明代理

  • 09 2019-05
    代理IP可以应用于哪些地方?

    代理IP可以应用于哪些地方?代理IP这个词,大家是否有听过呢?代理IP的意思是将用户真实IP隐藏,用另一个IP地址替换。现在网络上,存在很多可以提供此类服务的商家,例如机灵代理。如果

  • 29 2019-06
    代理ip的质量参差不齐

    代理ip的质量参差不齐,到底选哪家的会比较好些?最好性价比要高些的,大家有什么可用推荐的么?

  • 21 2019-12
    爬虫时注意事项!

    爬虫时注意事项!Web是一个开放的平台,这也奠定了Web从90年代诞生至今将近30年的蓬勃发展。开放的Web同时也吸引了众多程序抓取, 这些程序通称网络爬虫。互联网中几乎所有服务端、客户端编

  • 20 2019-11
    代理IP网络爬虫如何控制采集速度?

    大家知道在大数据时代,每天互联网上进行得最频繁的一个操作是什么吗?答案其实已经非常呼之欲出了,就是用代理IP进行网络爬虫抓取,这个动作每时每刻都在进行。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部