您的位置:首页 > 新闻资讯 >文章内容
Python爬虫怎么伪装http请求
来源:互联网 作者:admin 时间:2019-02-19 15:26:31

    爬虫想要抓取数据,首先要伪装好自己的数据,如需要使用代理IP修改IP地址,伪装请求头访问,否则会被系统检测到你是爬虫,这样就访问不了网页。关键是Python爬虫怎么伪装http请求,实现访问呢?


    1.我们在百度搜索时,输入关键词,比如“hello”,URL发生变化,如下:


    https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC


    如果只截取前一部分“https://www.baidu.com/s?wd=hello”,搜索效果是相同的,wd=后面跟的就是我们要搜索的关键词。


    因此,我们可以通过这个构造GET请求。


Python爬虫怎么伪装http请求


    也可以用另一种简化一点的方法,原理是相同的:


Python爬虫怎么伪装http请求


    这样保存到1.html的,就是我们想要的搜索结果网页。


    但是对于汉字搜索,上面的程序就是报错,这是由于编码问题造成的。对于这个问题,可以利用urllib.parse中的quote解决,具体如下:


Python爬虫怎么伪装http请求


    2.Python爬虫可以通过模拟浏览器登陆来实现伪装,即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去。获取各浏览器的User-Agent:


Python爬虫怎么伪装http请求


    Python爬虫怎么伪装http请求?可以构造GET请求,设置User-Agent来模拟浏览器访问,避免被认出是爬虫,这样可以更好的获取到信息了。


相关文章内容简介
推荐阅读
  • 25 2019-10
    个人用户获得免费代理IP方式

    对于爬虫学习者来说,练习是很有必要的,因为看了再好的教程跟理论,都比不上一次一次的反复操作,从实践中学习,能够快速提升。但是如果练习次次都需要购买代理IP服务,那么这费用确

  • 31 2019-12
    爬虫需要掌握哪些技术?

    爬虫需要掌握哪些技术?使用爬虫采集数据已经成为了现在的一种风尚和流行,或者说大数据在未来会变得愈发重要,学习和使用爬虫的人也变得越来越多,那么我们在使用学习爬虫时需要掌握

  • 06 2020-03
    更换IP地址的重要性

    IP地址是一个人上网的根本,我们在上网的时候都是通过IP地址实现的,一台电脑只能够有一个IP地址,这个地址是被固定下来的,平常我们都会使用它来上网。其实长时间使用一个IP地址是非常

  • 14 2019-05
    国内高匿名HTTP代理IP

    国内高匿名HTTP代理IP从哪里找,租用价格怎样?质量怎样?大数据时代背景下,应用到代理IP的行业越来越多,大家对代理IP的要求也越来越高,面对市场中良莠不齐的众多商家。

  • 18 2019-04
    封禁IP无差别反爬,但换个IP还是可以突破的

    封禁IP无差别反爬,但换个IP还是可以突破的,就是这么简单,这也就是为什么爬虫都需要使用代理IP的原因。

  • 20 2019-03
    怎么写个免费的开源IP代理池?

    凡是使用网络爬虫的用户都知道,爬虫的标配是代理IP,没有代理IP,爬虫基本上属于寸步难行的,但是如果一直都要使用代理IP,每个项目需求的IP量也多,成本可不低,能不能使用免费的呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部