您的位置:首页 > 新闻资讯 >文章内容
Python爬虫怎么伪装http请求
来源:互联网 作者:admin 时间:2019-02-19 15:26:31

    爬虫想要抓取数据,首先要伪装好自己的数据,如需要使用代理IP修改IP地址,伪装请求头访问,否则会被系统检测到你是爬虫,这样就访问不了网页。关键是Python爬虫怎么伪装http请求,实现访问呢?


    1.我们在百度搜索时,输入关键词,比如“hello”,URL发生变化,如下:


    https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC


    如果只截取前一部分“https://www.baidu.com/s?wd=hello”,搜索效果是相同的,wd=后面跟的就是我们要搜索的关键词。


    因此,我们可以通过这个构造GET请求。


Python爬虫怎么伪装http请求


    也可以用另一种简化一点的方法,原理是相同的:


Python爬虫怎么伪装http请求


    这样保存到1.html的,就是我们想要的搜索结果网页。


    但是对于汉字搜索,上面的程序就是报错,这是由于编码问题造成的。对于这个问题,可以利用urllib.parse中的quote解决,具体如下:


Python爬虫怎么伪装http请求


    2.Python爬虫可以通过模拟浏览器登陆来实现伪装,即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去。获取各浏览器的User-Agent:


Python爬虫怎么伪装http请求


    Python爬虫怎么伪装http请求?可以构造GET请求,设置User-Agent来模拟浏览器访问,避免被认出是爬虫,这样可以更好的获取到信息了。


相关文章内容简介
推荐阅读
  • 20 2019-07
    分布式ip代理池怎么搭建?

    分布式ip代理池怎么搭建?爬虫程序的正常运行,这是需要大量的ip资源来维持的,如果没有这些ip资源,也就是ip代理池,爬虫程序将要停止工作或者极大的降低抓取的速度,因此ip代理池是非

  • 22 2020-05
    改ip对我们日常工作的作用

    IP地址是我们上网的基础,更改ip地址一般都是通过第三方软件进行切换。更改ip地址之后就可以使用更改后的IP去做自己想要的工作,比如营销策略(游戏试玩游戏挂机QQ营销SEO)、网络推广(

  • 07 2019-05
    HTTP代理可以改QQ的IP

    HTTP代理可以改QQ的IP,大家有没有使用过?如果更换QQ的IP,这样你的IP地址就不会被好友所获知了,增加安全性,而且改IP的方法也简单,几步就能设置完了,可以先去看看:

  • 04 2020-03
    什么行业需要ip代理软件

    现在网络中的黑客是越来越多,而且稍不留意就会在网络中留下自己的痕迹。通常情况下,需要设置代理来隐藏自己的IP;另外很多行业也需要代理ip,例如SEO。

  • 11 2019-06
    无法连接代理服务器怎么回事

    无法连接代理服务器怎么回事?在外面找了个IP,想使用代理服务器的,结果怎么也使用不到,换其他的IP也不行,这到底怎么回事呢?

  • 26 2020-04
    什么是ip代理软件​

    ip代理起源时什么时候我们不去考证,这个与我们没半点关系。ip代理软件是一种代理IP技术,用大白话来解释就是,使用ip代理软件可以使每台电脑都有着不同的IP,既可以减轻网线成本的压力

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部