您的位置:首页 > 新闻资讯 >文章内容
Python爬虫怎么伪装http请求
来源:互联网 作者:admin 时间:2019-02-19 15:26:31

    爬虫想要抓取数据,首先要伪装好自己的数据,如需要使用代理IP修改IP地址,伪装请求头访问,否则会被系统检测到你是爬虫,这样就访问不了网页。关键是Python爬虫怎么伪装http请求,实现访问呢?


    1.我们在百度搜索时,输入关键词,比如“hello”,URL发生变化,如下:


    https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC


    如果只截取前一部分“https://www.baidu.com/s?wd=hello”,搜索效果是相同的,wd=后面跟的就是我们要搜索的关键词。


    因此,我们可以通过这个构造GET请求。


Python爬虫怎么伪装http请求


    也可以用另一种简化一点的方法,原理是相同的:


Python爬虫怎么伪装http请求


    这样保存到1.html的,就是我们想要的搜索结果网页。


    但是对于汉字搜索,上面的程序就是报错,这是由于编码问题造成的。对于这个问题,可以利用urllib.parse中的quote解决,具体如下:


Python爬虫怎么伪装http请求


    2.Python爬虫可以通过模拟浏览器登陆来实现伪装,即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去。获取各浏览器的User-Agent:


Python爬虫怎么伪装http请求


    Python爬虫怎么伪装http请求?可以构造GET请求,设置User-Agent来模拟浏览器访问,避免被认出是爬虫,这样可以更好的获取到信息了。


相关文章内容简介
推荐阅读
  • 06 2019-12
    优秀的代理IP公司是什么样子的?

    网络上面我们可以看到很多不同的代理IP广告,点击进入可以看到不同的公司企业提供的服务,那么我们可以怎么去判断这些企业的资质呢?

  • 13 2020-10
    刷流量怎么能忘了代理ip

    流量可以说是网络世界的唯一通行证,不管是做什么,流量永远是第一位需要考虑的东西,比如说现在的流量明星就是一个很好的例子,一个网站也是同样的道理,有了足够的流量才有收入。

  • 01 2019-07
    最普及的隐藏IP方法是用代理IP

    现在最普及的隐藏IP方法是用代理IP,如果使用的是商家提高的,例如机灵代理,还是高匿名的,隐藏IP地址的效果最佳!

  • 27 2019-05
    开放代理都有哪些劣势?

    上文讲到不建议使用开放代理,这是为什么呢?因为开放代理的缺点太多啦!正是由于开放代理的一些特性,用于做项目,可能会坑到自己,故不建议的。那么开放代理都有哪些劣势?

  • 10 2019-06
    代理ip防封效果好吗?

    代理ip防封效果好吗?可能一部分人对代理ip可能是陌生的,没有使用或者了解过代理ip,当然是不知道有什么用。机灵代理就是一个代理ip工具,也就是可以更换全国的ip地址,那么这代理ip防封

  • 03 2020-01
    动态ip​上网有什么好处吗?

    动态ip​上网有什么好处吗?我们在连接上网时,需要进行选择“静态”、“动态”、“拨号”这几种中的其中一种方式来上网,它们都有什么区别呢?各有哪些优缺点,选择哪种方式上网好?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部