您的位置:首页 > 新闻资讯 >文章内容
用爬虫代理爬取豆瓣电影榜单并构建知识图谱
来源: Python中文社区 KingShine 作者:admin 时间:2019-04-11 10:06:27

用爬虫代理爬取豆瓣电影榜单并构建知识图谱:想学习知识图谱,奈何没有数据,只能自己找,于是选择了豆瓣电影。首先我们要通过爬虫去爬取电影榜单,之后再进行知识图谱的构建的,那么如何实现呢?

一、分析问题

豆瓣电影Top250主页面看着信息比较完整,仔细看会发现主演内容不全,查看网页源代码。

直接爬取主页面,主演内容会获取不全。于是想到进入每个电影的详细页面进行爬取,打开第一个电影,可以看到如下。

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

信息比较全,所以决定数据从电影详细页爬取。
构建知识图谱首先选择所要存储的字段。经过考虑和大家的兴趣,主要探索导演、演员、电影的关系,再加上电影类型。所以确定所要爬取的字段为

  • 电影名称

  • 导演

  • 演员

  • 电影类型

本文的操作过程步骤如下:
第一步:从主页爬取到每个电影详细页的地址,进行存储
第二步:读取第一步中电影地址列表,依次爬取每个电影的信息,进行存储
第三步:对爬取的电影数据提取整合出知识图谱的结点和关系
结点:

  • 电影结点(电影ID,电影名称,标签)

  • 导演结点(导演ID,导演名称,标签)

  • 演员结点(演员ID,演员名称,标签)

  • 类型结点(类型ID,类型名称,标签)

关系:

  • 导演——电影关系(导演)

  • 演员——电影关系(出演)

  • 导演——演员关系(合作)

  • 电影——类型关系(属于)

第四步:将结点和关系导入Neo4j,生成图谱

二、爬取数据

一开始用的Scrapy框架爬取,获取电影URL比较简单,获取到的URL为下面样式:

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

下面对电影详细页进行爬取。

一开始继续使用scrapy,弄了半天,发现电影、导演、类型都爬下来了,可是演员怎么都获取不到。后来才注意到演员是JS动态生成的,真是浪费感情了。于是使用requests+BeautifulSoup来爬取数据。

代码如下:

读取详细页URL列表

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

遍历URL列表,爬取每个页面信息,将每个页面的信息存储在results列表

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

将爬取结果导出到CSV文件

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

导出的文件如下:

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

三、生成结点和关系

数据有了,下一步就是整理出所需要的可以直接导入到Neo4j的结点和关系文件。
结点:

  • 电影结点(电影ID,电影名称,标签)

  • 导演结点(导演ID,导演名称,标签)

  • 演员结点(演员ID,演员名称,标签)

  • 类型结点(类型ID,类型名称,标签)

提取结点的主要代码如下:

下面主要获得电影、导演、演员、类型的集合,方便ID编码

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

下面生成电影、导演、演员、类型的ID

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

拼接结点数据

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

生成结点文件

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

关系:

  • 导演——电影关系(导演)

  • 演员——电影关系(出演)

  • 导演——演员关系(合作)

  • 电影——类型关系(属于)

读取以上生成的结点文件

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

遍历文件,拼接出关系表,主要代码如下:

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

导出到CSV

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

这样所需要的结点和关系文件就生成好了

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

director.csv文件格式如下:

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

relationship_director_film.csv文件格式如下:

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

四、导入Neo4j,生成图谱

使用如下语句导入

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

需要注意的是,这种导入方式需要保证你的数据库中没有movie.db,否则会报错。因为Neo4j默认的数据库为graph.db,所以导入成功后,需要修改neo4j.conf文件,才能查看刚才生成的数据库。修改如下:

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

重新启动Neo4j后,你就会看到你的数据了。
我们来查看一下效果。

用爬虫代理爬取豆瓣电影榜单并构建知识图谱

以上介绍了用爬虫代理爬取豆瓣电影榜单并构建知识图谱的整个过程,可供参考。

相关文章内容简介
推荐阅读
  • 11 2019-05
    高效廉价的http代理去哪找?

    高效廉价的http代理去哪找?现在技术发展快,用户的数据也容易被获取到,加入大数据的分析可以分析到很多有价值的信息,但是这些数据并不是随便就能获取到的,在采集信息的时候是需要

  • 21 2019-03
    爬虫抓取数量大,使用什么代理IP池好?

    爬虫抓取数量大,使用什么代理IP池好?一般做营销都是需要使用代理IP的,但有些项目需要的代理IP比较多,比如爬爬虫抓取大数据,这样小的代理IP不够用,建议搭建代理IP池使用的,比如找

  • 01 2019-04
    代理IP与网络代理有什么关系?

    初识代理IP时,很多人都以为代理IP也是代理服务器,能够起多种作用,不过这代理IP一般都是用作隐藏IP地址,切换IP,降低网络延迟这几个方面。但是代理服务器并不止几个作用。那么这代理IP

  • 03 2019-04
    封锁IP破解--代理IP伪装不同用户

    如果遇到的网站反爬虫机制比较严,网络爬虫怎么入手爬取比较好?一般上来讲,只要利益大于成本,不管反爬虫机制有多严,网络爬虫都是有办法的,大不了多找些工具,把程序做好些。

  • 15 2019-06
    微商营销需要借助代理IP

    微商营销需要借助代理IP,由于做微商的门槛很低,所有竞争也是很激烈的,老办法做微商,很难胜出的,还需要找个办法,而借助代理IP就不错。比如:

  • 27 2019-03
    IP购买的价格是怎样计算的?

    现在各大网站服务商在推出扩展性服务器时,最优势的就是这些IP地址是可以购买的,其够买的价格也是非常合理的,如果大家有需要的话就可以直接与服务商进行沟通,他们会根据你需要的IP

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961