您的位置:首页 > 新闻资讯 >文章内容
实战:爬虫利用IP代理去爬取喜马拉雅的音频数据
来源:互联网 作者:admin 时间:2019-04-10 18:03:09

爬虫利用IP代理去爬取喜马拉雅的音频数据,这方法可行吗?因为网站有限制,我们使用IP代理先处理这个IP限制的问题,这样爬取就会顺利些。

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息,然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址,频道信息,简介等等,非常多。

爬虫利用IP代理去爬取喜马拉雅的音频数据的案例分析如下:

1.首先进入这次爬取的主页面 ,可以看到每页12个频道,每个频道下面有很多的音频,有的频道中还有很多分页。抓取计划:循环84个页面,对每个页面解析后抓取每个频道的名称,图片链接,频道链接保存到mongodb。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

2.打开开发者模式,分析页面,很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息,就可以保存到mongodb中。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据


3.下面就是开始获取每个频道中的全部音频数据了,前面通过解析页面获取到了美国频道的链接。

比如我们进入 http://www.ximalaya.com/6565682/album/237771 这个链接后分析页面结构。可以看出每个音频都有特定的ID,这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

4.接着点击一个音频链接,进入开发者模式后刷新页面然后点击XHR,再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

5.上面只是对一个频道的主页面解析全部音频信息,但是实际上频道的音频链接是有很多分页的。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据


6.全部代码

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

7.如果改成异步的形式可以快一点,只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

这次抓取的数据量在70万左右,这些数据后续可以进行很多研究,比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析,清洗的工作。

以上分享了爬虫利用IP代理去爬取喜马拉雅的音频数据的案例,大家可以参考下,或者是分享更多的爬取方法的。


相关文章内容简介
推荐阅读
  • 24 2019-10
    提取代理IP无法使用?

    有的时候,向代理服务商购买了代理IP,提取之后,设置好发现却无法打开网站?这种情况是代理IP不行还是网络不行呢?下面机灵代理为大家分析几点原因。

  • 19 2019-11
    代理IP如何帮助文章刷阅读数?

    现在是软推广的时代,硬广对于勾起消费者的购物欲望已经失去魔力了。所以我们需要将一些推广软文来发布在网络不同平台上,可是如果阅读量很少怎么办呢?下面代理IP跟大家一起关注这个问

  • 23 2019-10
    代理服务器的上网速度快吗?

    用代理服务器上网,跟用普通服务器上网的速度有区别吗?

  • 22 2019-03
    代理IP在Python中如何使用?

    上文刚刚讲到对于代理IP资源的获取方法,如果选择使用代理精灵,这效果还是不错的,可以先进行测试使用的。那么代理IP在Python如何使用的呢?

  • 10 2019-10
    灵活使用代理IP的方式

    爬虫需要用到大量的IP,那么我们怎么保证我们有足够的有效IP来进行抓取呢?IP不足的问题可以通过代理IP来解决,而且更进一步的用法,就是搭建一个专门的代理IP池。要懂得使用代理IP,这样

  • 03 2019-10
    用代理IP刷IP的原理

    如果你是从事网络营销相关工作,那么今天机灵代理给大家介绍的这篇文章内容就不可以错过了。像我们在为网站刷流量、投票活动刷票,这类营销行为,需要用到代理IP来帮助。能够实现刷IP

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部