您的位置:首页 > 新闻资讯 >文章内容
爬虫的请求头应该怎写不会被发现?
来源:互联网 作者:admin 时间:2019-02-20 17:30:24

    网站的反爬虫存在于整个爬虫获取数据流程里面,爬虫首先会遇到请求的问题,如果爬虫不伪装浏览器发送请求,那么就会被网站检测到爬虫,从而禁止访问,拒绝返回信息。那么爬虫的请求头应该怎写呢?


    当我们使用浏览器访问网站的时候,浏览器会发送一小段信息给网站,我们称为RequestHeaders,在这个头部信息里面包含了本次访问的一些信息,例如编码方式,当前地址,将要访问的地址等等。这些信息一般来说是不必要的,但是现在很多网站会把这些信息利用起来。其中最常被用到的一个信息,叫做“User-Agent”。网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的,但都有遵循一定的规则。


    例如,我们在windows上面的Chrome浏览器,它的User-Agent是:


    但是如果我们使用Python的Requests直接访问网站,除了网址不提供其他的信息,那么网站收到的User-Agent是空。这个时候网站就知道我们不是使用浏览器访问的,于是它就可以拒绝我们的访问。


    例如:


    没有User-Agent的情况


爬虫的请求头应该怎写不会被发现?


    有User-Agent的情况


爬虫的请求头应该怎写不会被发现?


    如何获取网站的User-Agent呢?请打开Chrome,任意打开一个网站,然后右键,“检查”打开开发者工具,定位到“Network”选项卡,并刷新网页,如下图所示:


爬虫的请求头应该怎写不会被发现?


    在左下角会出现当前网页加载的所有元素。随便点一个元素,于是在右下角会出现对当前元素的请求信息。在里面找到RequestHeaders这一项,里面的内容即为我们需要的内容。


    不同的网站,RequestHeaders是不同的


    提示:requests的get方法,post方法,Session模块的get方法,post方法,都支持自定义Headers,参数名为headers,它可以接收字典作为参数。


    我们可以通过字典来设定Headers,例如:


爬虫的请求头应该怎写不会被发现?


    其实网站通过检查User-Agent是一种最简单的反爬虫机制,而我们爬虫也可以通过设定RequestHeaders中的User-Agent来突破这种机制。当时如果获取信息都使用同一种User-Agent,这也太反常了,没有那么巧的事情,这也可能会被检测到,从而被封。因此,即使使用User-Agent能突破限制,也是需要更换不同User-Agent来使用,可以收集不同的浏览器User-Agent,同浏览器不同本版的User-Agent也是不一样,都可以收集轮流使用。


相关文章内容简介
推荐阅读
  • 12 2019-12
    选择代理ip软件​的注意事项!

    选择代理ip软件​的注意事项!随着网络营销手段的普及,很多营销人员在执行活动期间或者是日常推广宣传,都需要在网络平台上进行广告的发布。比如要在百度贴吧、百度知道、知乎、豆瓣等

  • 14 2019-01
    IP代理与VPN有什么不同?使用哪个换IP软件比较好

    想找个换IP的软件,不知道到底是找IP代理还是VPN好,网上说IP代理与VPN都是可以换IP的软件,像是刷单等这些都是可以使用VPN或者IP代理,那么这IP代理与VPN有什么不同?

  • 07 2019-09
    推荐代理IP池的维护方法

    对于程序员而言,没有代理IP爬虫寸步难行,而且网络爬虫所需要用到的IP量又非常的大。要去跟网站的反爬虫策略去做对抗,我们需要搭建一个专门用于爬虫的代理IP池才行。如果对这个IP池去

  • 21 2019-11
    代理IP是如何刷广告赚钱的?

    随着网络的发展,在互联网上,我们可以通过各种各样的渠道来做一些赚钱的项目。比如我们可以用代理IP来刷广告。

  • 19 2019-01
    为什么说代理IP可以隐藏IP地址?用代理IP是可以查出源ip的

    怎么隐藏自己的IP地址,代理IP有用吗?都说代理IP中的IP是高匿名的,可以很好的隐藏用户的地址信息,对方并不知道我们使用了代理,是非常的安全的。这是真的吗?怎么隐藏自己的IP地址?

  • 13 2019-06
    怎么知道爬虫代理好不好用

    怎么知道爬虫代理好不好用?做数据采集的非常讲究爬虫代理的质量,如果这爬虫代理的质量不好,影响会非常大。但是有个问题很关键,怎么知道爬虫代理好不好用呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部