您的位置:首页 > 新闻资讯 >文章内容
Python怎么获取网页源码?
来源:互联网 作者:admin 时间:2019-11-22 10:44:32

  Python跟代理IP是一组梦幻的搭配,很多网络工作者都非常喜欢。今天我们来聊聊Python怎么获取网页的源码?下面看看机灵代理带来的教程。

Python怎么获取网页源码

  1、获取网页的头部信息以确定网页的编码方式:


  import urllib.request


  res = urllib.request.urlopen('http://www.163.com')


  #info()方法 用来获取网页头部


  print(res.info())


  2、取网页代码:


  #导入 urllib库的request模块


  import urllib.request


  #指定要抓取的网页url,必须以http开头的


  url = r'http://fund.eastmoney.com/340007.html?spm=search'


  #调用 urlopen()从服务器获取网页响应(respone),其返回的响应是一个实例


  res = urllib.request.urlopen(url)


  #调用返回响应示例中的read()函数,即可以读取html,但需要进行解码,具体解码写什么,要在你要爬取的网址右键,查看源代码


  html = res.read().decode('utf-8')


  print(html)


  3、正式代码(加入头部,伪装成浏览器):


  import urllib.request


  url = r'http://fund.eastmoney.com/340007.html?spm=search'


  headers = {


  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}


  req = urllib.request.Request(url=url, headers=headers)


  res = urllib.request.urlopen(req)


  html = res.read().decode('utf-8')


  print(html)


  注意:urllib.request.Request()用于向服务端发送请求,就如 http 协议客户端想服务端发送请求;


  urllib.request.urlopen()则相当于服务器返回的响应;


  按照上面的3个步骤,我们就成功使用Python获得了网页的源码了。


相关文章内容简介
推荐阅读
  • 25 2019-04
    代理服务器的匿名度怎么区分?

    代理服务器的匿名度怎么区分?有些人不清楚,其实代理服务器有匿名程度的分类,比如大家经常使用的高匿名,还有一些大家不知道的透明代理。但很多人也仅是知道这么一点,如果知道我们

  • 24 2020-03
    使用代理ip顺利完成数据采集

    如何获取海量的信息数据采集,单靠人工是无法完成如此庞大的数据信息的,通常现在都是需要使用网络爬虫去完成,但是网络爬虫需要使用代理ip突破限制,来支持爬虫顺利进行。

  • 09 2019-08
    爬虫如何解决ip封锁问题?最佳方法用代理IP

    爬虫如何解决ip封锁问题?最佳方法用代理IP!在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝,

  • 26 2019-06
    免费代理IP不好用的原因

    免费代理IP不好用的原因,分别都有什么?免费代理IP要怎么使用才可以,为什么浏览器设置了代理后上不了网了?试了好多个都是这样,难道都是假的吗?

  • 04 2019-07
    用了代理IP还报错怎么回事?

    用了代理IP还报错怎么回事?由于网站有预防限制,因此想要高频率的访问,还需要使用代理IP的,但是时候了代理IP,这效果却没有想象中那么的好。

  • 04 2019-06
    爬虫代理应用多领域

    爬虫代理应用多领域,比如营销推广,数据采集,资料查看等等的,为什么这些领域需要使用爬虫代理呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部