您的位置:首页 > 新闻资讯 >文章内容
实战:爬虫利用IP代理去爬取喜马拉雅的音频数据
来源:互联网 作者:admin 时间:2019-04-10 18:03:09

爬虫利用IP代理去爬取喜马拉雅的音频数据,这方法可行吗?因为网站有限制,我们使用IP代理先处理这个IP限制的问题,这样爬取就会顺利些。

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息,然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址,频道信息,简介等等,非常多。

爬虫利用IP代理去爬取喜马拉雅的音频数据的案例分析如下:

1.首先进入这次爬取的主页面 ,可以看到每页12个频道,每个频道下面有很多的音频,有的频道中还有很多分页。抓取计划:循环84个页面,对每个页面解析后抓取每个频道的名称,图片链接,频道链接保存到mongodb。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

2.打开开发者模式,分析页面,很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息,就可以保存到mongodb中。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据


3.下面就是开始获取每个频道中的全部音频数据了,前面通过解析页面获取到了美国频道的链接。

比如我们进入 http://www.ximalaya.com/6565682/album/237771 这个链接后分析页面结构。可以看出每个音频都有特定的ID,这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

4.接着点击一个音频链接,进入开发者模式后刷新页面然后点击XHR,再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

5.上面只是对一个频道的主页面解析全部音频信息,但是实际上频道的音频链接是有很多分页的。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据


6.全部代码

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

7.如果改成异步的形式可以快一点,只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

这次抓取的数据量在70万左右,这些数据后续可以进行很多研究,比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析,清洗的工作。

以上分享了爬虫利用IP代理去爬取喜马拉雅的音频数据的案例,大家可以参考下,或者是分享更多的爬取方法的。


相关文章内容简介
推荐阅读
  • 23 2019-11
    爬虫代理不建议用免费IP

    机灵代理的很多用户在购买代理IP的时候会问,你们这个付费的IP跟免费的IP差别在哪里?我爬虫用免费IP不行吗?如果你在纠结这个问题,那么我们来一起看看要怎么选择。

  • 04 2020-03
    免费高匿名代理IP

    现在可以经常在网上看到代理IP这个词,对于网络营销人员来说,这是再熟悉不过的软件了,但是代理IP中又又很多分类,其中最受欢迎的就是高匿名代理IP。

  • 31 2019-05
    机灵代理带你Get修改IP的用处

    修改IP,这是非常常见的事情,不过修改IP都有什么用呢?修改ip也就是更改设备的ip,可以称为网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个代理中转与另一

  • 10 2019-09
    除了用代理IP 微信粉丝转化还能怎么做?

    新媒体时代,首先要有流量才可以谈转化。通过互联网来进行营销,我们需要动用相关的营销工具,像代理IP就被广泛利用在微信营销当中,使用代理IP可以前期快速实现涨粉以及阅读量增长等

  • 12 2019-09
    用代理IP爬虫前 你必须懂的33个知识点(一)

    利用网络爬虫来进行大数据挖掘已经发展到一个比较成熟的地步了,而且现在互联网具有海量的信息,我们可以通过网络来进行学习。如果你想要了解爬虫以及大数据的相关知识,那么机灵代理

  • 21 2019-08
    代理IP分有多少种不同协议?

    使用代理IP,你知道代理IP也有“语言”,也即是协议的区分吗,一般代理协议会分为多少种?它们的工作原理又是什么呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部