您的位置:首页 > 新闻资讯 >文章内容
Python爬虫怎么伪装http请求
来源:互联网 作者:admin 时间:2019-02-19 15:26:31

    爬虫想要抓取数据,首先要伪装好自己的数据,如需要使用代理IP修改IP地址,伪装请求头访问,否则会被系统检测到你是爬虫,这样就访问不了网页。关键是Python爬虫怎么伪装http请求,实现访问呢?


    1.我们在百度搜索时,输入关键词,比如“hello”,URL发生变化,如下:


    https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC


    如果只截取前一部分“https://www.baidu.com/s?wd=hello”,搜索效果是相同的,wd=后面跟的就是我们要搜索的关键词。


    因此,我们可以通过这个构造GET请求。


Python爬虫怎么伪装http请求


    也可以用另一种简化一点的方法,原理是相同的:


Python爬虫怎么伪装http请求


    这样保存到1.html的,就是我们想要的搜索结果网页。


    但是对于汉字搜索,上面的程序就是报错,这是由于编码问题造成的。对于这个问题,可以利用urllib.parse中的quote解决,具体如下:


Python爬虫怎么伪装http请求


    2.Python爬虫可以通过模拟浏览器登陆来实现伪装,即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去。获取各浏览器的User-Agent:


Python爬虫怎么伪装http请求


    Python爬虫怎么伪装http请求?可以构造GET请求,设置User-Agent来模拟浏览器访问,避免被认出是爬虫,这样可以更好的获取到信息了。


相关文章内容简介
推荐阅读
  • 01 2019-04
    用了代理ip对方是怎么封了我的ip?

    有些人会有这种想法,代理IP能隐藏我的IP,怎么换IP都行,这样随便用都不会被发现。这到底是不是真的?

  • 13 2019-06
    数据采集离不开代理ip的支持

    数据采集离不开代理ip的支持,因为现在数据产生比较快,我们需要分析一件事情,可能需要分析很多的信息才能挖机到有价值的资料。而要用大量的信息,并不是任你使用的,这需要去一些平

  • 15 2019-06
    优质http代理并没有想象中好

    优质http代理并没有想象中好,这是什么原因导致的呢?目前大数据的应用,让数据采集成为了一个热门的行业,大数据样本的获得需要通过数据爬虫来时限,爬虫工作者一般都会解用爬虫http代

  • 06 2019-06
    租用国内代理ip要考虑几点

    租用国内代理ip要考虑几点,我们知道互联网营销的业务中,经常会用到代理IP,最常见的有投票、抢购、注册等,其实发帖也是可以应用到的,例如在某论坛发帖,经常操作可能会被网站系统

  • 28 2019-03
    用代理IP软件刷单的一些细节

    刷单这次词,估计大家都是听过的,尤其是电商行业。有些商家甚至说不刷就等死,不刷就没有流量,不刷就没有成单。但是平台也严抓刷单问题,若是被检测到,各种惩罚也是少不了的。那么

  • 01 2019-06
    IP地址被屏蔽快速切换IP

    遇到IP地址被屏蔽快速切换IP就能决解了吗?有时候,在贴吧发帖,怎么也发布不成功帖子,这就有可能是IP地址被屏蔽。这种情况该如何换IP呢?IP地址被屏蔽怎么切换IP?跟小编来瞧一瞧:

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961