您的位置:首页 > 新闻资讯 >文章内容
案例分享:Python爬虫爬取热门歌单
来源:互联网 作者:admin 时间:2019-03-29 17:11:28

  Python代码可以做很多的事情,用途比较广泛,比如想知道最近热门的歌单,这也是可以做到的。而且非常简单,零基础都能实现,15行代码便能搞定了。


  用的是Selenium模块,它是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页面来说,此种抓取方式非常有效。


  若你的环境中没有Selenium模块,直接使用pip安装即可。


  打开谷歌浏览器,检查Chrome的版本:在浏览器地址中输入 chrome://settings/help 回车即可看到。


  打开ChromeDriver 的官方网站,寻找与你当前浏览器版本相对应的ChromeDriver,选择你自己的操作系统类型进行下载即可。


  以Windows为例,下载结束后,将ChromeDriver 放置在Python安装目录下的Scripts文件夹即可。


案例分享:Python爬虫爬取热门歌单


  我们这次的目标是爬取热门歌单,比如网易云音乐中播放量大于1000万的歌单信息(歌单名称、链接)。


  1.先来打开网易云的歌单第一页,使用Chrome的开发者工具<F12>进行分析。


案例分享:Python爬虫爬取热门歌单


  2.我们想要拿的信息全在这里:


  msk,封面[mask]:有歌单的名称及链接


  nb,播放数[number broadcast]:135万


  3.我们还需要遍历所有的页,使用工具继续分析,找到“下一页”的URL。


案例分享:Python爬虫爬取热门歌单


  4.切换至最后一页,拿到最后一页的URL。


案例分享:Python爬虫爬取热门歌单


  5.等我们爬取完所有符合的歌单信息后,将其保存在本地。


  6.全部工作结束,最后再通过下面的伪代码回顾下整体思路。


案例分享:Python爬虫爬取热门歌单


  7.爬取的效果如下:


案例分享:Python爬虫爬取热门歌单


  以上便是Python代码搞定热门歌单,难不!可能对于小白来说,很多知识还不是很懂,这可以先去了解下基础的知识点。


相关文章内容简介
推荐阅读
  • 15 2019-01
    Python爬虫怎么调用代理IP

    Python爬虫进行数据爬取的时候,首先要解决IP限制的问题,如果解决就无法快速的进行爬取,导致IP被封,无法工作,这时候就需要是代理IP,通过调用代理IP中的IP地址去突破目标网站的IP限制,

  • 10 2019-07
    http代理能有效切换IP

    http代理能有效切换IP,如果需要切换ip,可以考虑使用http代理的,http代理的使用场景有:

  • 24 2019-04
    更换IP的基本原理和分类

    认识更换IP的基本原理和分类,有助于我们加深对代理IP的认识,并且能够更好,更合理的使用代理IP的,接下来我们就去了解下关于更换IP的基本原理:

  • 21 2019-01
    爬虫使用什么方法来突破IP封锁?使用机灵代理高匿名IP

    在爬虫满地跑的时代,网站为了自身的利益,肯定是要设置各种反爬虫机制的,常用的就是IP封锁,虽然爬虫还是可以使用代理IP来突破这个封锁的,但是使用代理IP总是花时间或者花成本的,这

  • 19 2019-06
    代理IP对电商的用途还是蛮大的

    代理IP对电商的用途还是蛮大的,只是很多人没有掌握技巧而已,今天就跟小编一起去看看:对于代理IP这个词,我想大多数搞电商的初代电商人或许是有一些熟悉的,他可是初代第三行人成立

  • 01 2019-05
    用代理服务器的好坏影响

    用代理服务器的好坏影响都有哪些?一般都是了解代理服务器使用的好处,但是对代理服务器的影响并没有怎么了解的,本文详细为大家介绍下。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部