您的位置:首页 > 新闻资讯 >文章内容
Python爬虫怎么伪装http请求
来源:互联网 作者:admin 时间:2019-02-19 15:26:31

    爬虫想要抓取数据,首先要伪装好自己的数据,如需要使用代理IP修改IP地址,伪装请求头访问,否则会被系统检测到你是爬虫,这样就访问不了网页。关键是Python爬虫怎么伪装http请求,实现访问呢?


    1.我们在百度搜索时,输入关键词,比如“hello”,URL发生变化,如下:


    https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC


    如果只截取前一部分“https://www.baidu.com/s?wd=hello”,搜索效果是相同的,wd=后面跟的就是我们要搜索的关键词。


    因此,我们可以通过这个构造GET请求。


Python爬虫怎么伪装http请求


    也可以用另一种简化一点的方法,原理是相同的:


Python爬虫怎么伪装http请求


    这样保存到1.html的,就是我们想要的搜索结果网页。


    但是对于汉字搜索,上面的程序就是报错,这是由于编码问题造成的。对于这个问题,可以利用urllib.parse中的quote解决,具体如下:


Python爬虫怎么伪装http请求


    2.Python爬虫可以通过模拟浏览器登陆来实现伪装,即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去。获取各浏览器的User-Agent:


Python爬虫怎么伪装http请求


    Python爬虫怎么伪装http请求?可以构造GET请求,设置User-Agent来模拟浏览器访问,避免被认出是爬虫,这样可以更好的获取到信息了。


相关文章内容简介
推荐阅读
  • 27 2019-12
    代理IP​有什么用途?

    代理IP​有什么用途?当IP被限制的时候,通过换IP的方式来解决。被封IP的原因有很多,当达到一些网站设定的阈值后,或者访问频率过快,IP就会被封。因此,为了解决IP限制问题,HTTP代理IP就

  • 03 2020-01
    代理服务器​中正反向的区别!

    代理服务器​中正反向的区别!说到代理服务器,了解的人可不少,有些人可能会经常用到代理服务器访问网络获取资源。而提取正向代理和反向代理,知道的人就比较少了,也高不清楚什么原

  • 26 2019-06
    代理IP检测时有效怎么使用无效了

    代理IP检测时有效怎么使用无效了?这个问题,可能很多人都遇到过的,明明检测没有问题,一到使用就出错了,这是为什么呢?原因可能有以下几点:

  • 29 2019-05
    代理IP帮助直播提高点击

    代理IP帮助直播提高点击,这个方法是否可行?近几年直播平台发展非常火爆,直播已经成为当下时代的一种潮流,无论你在哪,肯定都会发现身边的人在玩直播。很多有才艺的主播们投身于直

  • 24 2019-05
    混淆代理和匿名代理哪里不同

    有见过混淆代理(DistortingProxy)吗?这个代理其实跟匿名代理差不过,也是会被访问的服务器发现使用了代理的,但是跟匿名代理还是有些不同的,那么混淆代理和匿名代理哪里不同呢?

  • 12 2019-08
    IP代理助力营销刷票有效果吗

    IP代理助力营销刷票有效果吗?在很多的网络营销以及市场营销的工作中,可能不断地点击或是投票,更或是某些需要不断点入操作的工作需要处理,为的就是增加虚拟的人气。但是不得不说的

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部