您的位置:首页 > 新闻资讯 >文章内容
Python怎么获取网页源码?
来源:互联网 作者:admin 时间:2019-11-22 10:44:32

  Python跟代理IP是一组梦幻的搭配,很多网络工作者都非常喜欢。今天我们来聊聊Python怎么获取网页的源码?下面看看机灵代理带来的教程。

Python怎么获取网页源码

  1、获取网页的头部信息以确定网页的编码方式:


  import urllib.request


  res = urllib.request.urlopen('http://www.163.com')


  #info()方法 用来获取网页头部


  print(res.info())


  2、取网页代码:


  #导入 urllib库的request模块


  import urllib.request


  #指定要抓取的网页url,必须以http开头的


  url = r'http://fund.eastmoney.com/340007.html?spm=search'


  #调用 urlopen()从服务器获取网页响应(respone),其返回的响应是一个实例


  res = urllib.request.urlopen(url)


  #调用返回响应示例中的read()函数,即可以读取html,但需要进行解码,具体解码写什么,要在你要爬取的网址右键,查看源代码


  html = res.read().decode('utf-8')


  print(html)


  3、正式代码(加入头部,伪装成浏览器):


  import urllib.request


  url = r'http://fund.eastmoney.com/340007.html?spm=search'


  headers = {


  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}


  req = urllib.request.Request(url=url, headers=headers)


  res = urllib.request.urlopen(req)


  html = res.read().decode('utf-8')


  print(html)


  注意:urllib.request.Request()用于向服务端发送请求,就如 http 协议客户端想服务端发送请求;


  urllib.request.urlopen()则相当于服务器返回的响应;


  按照上面的3个步骤,我们就成功使用Python获得了网页的源码了。


相关文章内容简介
推荐阅读
  • 01 2020-04
    代理IP对爬虫的重要性

    网络数据越来越多,想做数据分析,就要抓取多个网站的数据进行分析,靠人工来完成是不现实的。因此,爬虫就出现了,可以用爬虫直接抓取数据。

  • 17 2019-07
    国内代理服务器价格贵吗?

    国内代理服务器价格贵吗?在网络世界当中,ip代理以及服务器代理其实是有着非常多的用户的,因为人们在这方面的需求还是非常的大的,当然现在大家使用代理服务器的时候,不单单只会将

  • 09 2020-06
    国内切换ip软件哪个好

    随着大数据的快速发展代理ip应时代的发展而产生,现在也是广大的工作者所使用得工作帮手,慢慢的大家对代理ip更加的熟悉,代理ip可用于网络爬虫,营销推广等,代理ip的存在是十分有必要

  • 24 2019-09
    代理IP推荐MySQL索引策略

    MySQL的索引功能使用需要注意什么?怎么才能够优化得更好?下面就由代理IP来跟大家进行介绍。索引是一种特殊的文件(InnoDB 数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有

  • 23 2019-10
    代理服务器的2个分类

    网络代理,需要通过代理服务器来进行。使用代理服务能够保障我们的网络安全,机灵代理IP下面带来代理服务器的相关介绍。

  • 22 2019-03
    代理IP在Python中如何使用?

    上文刚刚讲到对于代理IP资源的获取方法,如果选择使用代理精灵,这效果还是不错的,可以先进行测试使用的。那么代理IP在Python如何使用的呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部