您的位置:首页 > 新闻资讯 >文章内容
Python爬虫怎么伪装http请求
来源:互联网 作者:admin 时间:2019-02-19 15:26:31

    爬虫想要抓取数据,首先要伪装好自己的数据,如需要使用代理IP修改IP地址,伪装请求头访问,否则会被系统检测到你是爬虫,这样就访问不了网页。关键是Python爬虫怎么伪装http请求,实现访问呢?


    1.我们在百度搜索时,输入关键词,比如“hello”,URL发生变化,如下:


    https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC


    如果只截取前一部分“https://www.baidu.com/s?wd=hello”,搜索效果是相同的,wd=后面跟的就是我们要搜索的关键词。


    因此,我们可以通过这个构造GET请求。


Python爬虫怎么伪装http请求


    也可以用另一种简化一点的方法,原理是相同的:


Python爬虫怎么伪装http请求


    这样保存到1.html的,就是我们想要的搜索结果网页。


    但是对于汉字搜索,上面的程序就是报错,这是由于编码问题造成的。对于这个问题,可以利用urllib.parse中的quote解决,具体如下:


Python爬虫怎么伪装http请求


    2.Python爬虫可以通过模拟浏览器登陆来实现伪装,即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去。获取各浏览器的User-Agent:


Python爬虫怎么伪装http请求


    Python爬虫怎么伪装http请求?可以构造GET请求,设置User-Agent来模拟浏览器访问,避免被认出是爬虫,这样可以更好的获取到信息了。


相关文章内容简介
推荐阅读
  • 26 2019-07
    数据采集遇上IP地址被封怎么办?

    数据采集遇上IP地址被封怎么办?我要抓取一个网站的内容,需要访问那个网站,不过由于访问太频繁,他们反爬程序就会封锁我的IP或者暂时不让我的IP去访问,而且程序就会时常链接失败,中

  • 08 2019-05
    机灵代理的ip有效时间可控制

    机灵代理的ip有效时间可控制,这IP有效时间其实受很多的因素影响,比如,代理服务器受网络带宽、访问量、服务器本身性能等多种因素影响,其稳定性也是受影响的。

  • 23 2019-09
    代理IP教你怎么写出整洁的代码(下)

    代理IP教你怎么写出整洁的代码(上)这篇文章大家看完之后,有没有对整洁代码有了一个基本的轮廓呢?下面,机灵代理马不停蹄为大家带来下半部分的介绍。

  • 30 2019-05
    代理IP的稳定性受什么影响

    代理IP的稳定性受什么影响?选个稳定性好的代理IP,这对于使用效果无疑是更好的,如果代理IP的稳定性比较低,这对效率影响也比较大,否则大家都使用免费代理IP去了。

  • 11 2019-10
    机灵代理为你解说代理IP的收费标准

    当爬虫工程师在网络上搜索代理IP服务的时候,可以发现网上现在有着很多的代理服务商,而且不同的服务商,所提供的套餐以及资费也不一样。下面机灵代理给大家讲讲目前比较常见的计费方

  • 03 2019-06
    用了ip代理服务器软件打不开网页

    用了ip代理服务器软件打不开网页,这是怎么回事呢?到底是ip代理服务器软件有问题,是什么原因呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部