您的位置:首页 > 新闻资讯 >文章内容
实战:爬虫利用IP代理去爬取喜马拉雅的音频数据
来源:互联网 作者:admin 时间:2019-04-10 18:03:09

爬虫利用IP代理去爬取喜马拉雅的音频数据,这方法可行吗?因为网站有限制,我们使用IP代理先处理这个IP限制的问题,这样爬取就会顺利些。

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息,然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址,频道信息,简介等等,非常多。

爬虫利用IP代理去爬取喜马拉雅的音频数据的案例分析如下:

1.首先进入这次爬取的主页面 ,可以看到每页12个频道,每个频道下面有很多的音频,有的频道中还有很多分页。抓取计划:循环84个页面,对每个页面解析后抓取每个频道的名称,图片链接,频道链接保存到mongodb。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

2.打开开发者模式,分析页面,很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息,就可以保存到mongodb中。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据


3.下面就是开始获取每个频道中的全部音频数据了,前面通过解析页面获取到了美国频道的链接。

比如我们进入 http://www.ximalaya.com/6565682/album/237771 这个链接后分析页面结构。可以看出每个音频都有特定的ID,这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

4.接着点击一个音频链接,进入开发者模式后刷新页面然后点击XHR,再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

5.上面只是对一个频道的主页面解析全部音频信息,但是实际上频道的音频链接是有很多分页的。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据


6.全部代码

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

7.如果改成异步的形式可以快一点,只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

实战:爬虫利用IP代理去爬取喜马拉雅的音频数据

这次抓取的数据量在70万左右,这些数据后续可以进行很多研究,比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析,清洗的工作。

以上分享了爬虫利用IP代理去爬取喜马拉雅的音频数据的案例,大家可以参考下,或者是分享更多的爬取方法的。


相关文章内容简介
推荐阅读
  • 30 2019-05
    代理IP的响应速度有差别吗?

    有些人对代理IP不熟悉,对于选择也不知道如何下手,网上找下如何挑选,就说看匿名怎样,数量怎样,服务怎样,这些都还好,就是响应速度是指什么呢?代理IP的响应速度有差别吗?

  • 10 2019-04
    获取网上高匿代理IP代码分享

    获取网上高匿代理IP代码分享:当你需要在同一个网站爬取大量信息的时候,通常你会遇到各种各种各样的阻挠,其中一种就是IP被封,这时代理IP就成了我们不二的选择,我们下面的IP来源于国

  • 13 2019-05
    代理IP来自哪里?

    代理IP来自哪里?随着Internet的快速发展,大数据的应用,大数据样本的获取需要通过数据爬虫来实现,爬虫工作者通常会绕过代理IP的问题。为什么,这是因为网络抓取工具抓取信息的过程中间

  • 29 2019-05
    随机选择代理IP有效率怎样

    随机选择代理IP有效率怎样?如果使用代理IP之前,未经过检测,就直接使用了,结果会怎样?

  • 10 2019-05
    用IP代理工具能多注册账号吗?

    用IP代理工具能多注册账号吗?我们在注册账号的时候,首先要满足条件,才能正常的注册,如果我们想多注册些,是否能绕开一些条件限制呢?比如IP限制,能否使用IP代理工具切换IP继续注册

  • 14 2019-03
    对于爬虫来说,代理IP是否能用是非常重要的

    对于爬虫来说,代理IP是否能用,这是非常重要的。有没有什么方法可以检测这些代理IP是否能用呢?有的,比如直接用浏览器访问自己的服务器来测试,同时也可以从服务器端下手,毕竟代理IP

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961