您的位置:首页 > 新闻资讯 >文章内容
爬虫实战:抓取电影排行的详细流程
来源:互联网 作者:admin 时间:2019-04-02 16:22:26

  爬虫可以应用于许多行业,几乎是可以爬取全部的数据,比如说想知道最近最热门的电影,哪些题材电影比较受欢迎,还有一些电影的详细信息等等,这些都是可以通过爬虫进行爬取获取的。最为一名爬虫新手,多练是最快掌握爬虫编写的方法,今天我们来实践下爬取电影排行的一些操作:


  1.抓取分析


  找到我们需要抓取的目标站点,打开之后便可以查看到榜单信息。比如,排名第一的电影是霸王别姬,页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息。这样获到页面之后,再用正则表达式提取出相关信息,就可以得到TOP10的所有电影信息了。


爬虫实战:抓取电影排行的详细流程


  接下来用代码实现这个过程。首先抓取第一页的内容。我们实现了get_one_page()方法,并给它传入url参数。然后将抓取的页面结果返回,再通过main()方法调用。初步代码实现如下:


爬虫实战:抓取电影排行的详细流程


  2.正则提取


  接下来,回到网页看一下页面的真实源码。在开发者模式下的Network监听组件中查看源代码。


爬虫实战:抓取电影排行的详细流程


  注意,这里不要在Elements选项卡中直接查看源码,因为那里的源码可能经过JavaScript操作而与原始请求不同,而是需要从Network选项卡部分查看原始请求得到的源码。查看其中一个条目的源代码:


爬虫实战:抓取电影排行的详细流程


  可以看到,一部电影信息对应的源代码是一个dd节点,我们用正则表达式来提取这里面的一些电影信息。首先,需要提取它的排名信息,随后需要提取电影的图片,再往后需要提取电影的名称,再提取主演、发布时间、评分等内容时,都是同样的原理。最后,正则表达式写为:


  

  • .*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?).*?integer.*?>(.*?).*?fraction.*?>(.*?).*?


  这样一个正则表达式可以匹配一个电影的结果,里面匹配了7个信息。接下来,通过调用findall()方法提取出所有的内容。


  接下来,我们再定义解析页面的方法parse_one_page(),主要是通过正则表达式来从结果中提取出我们想要的内容,实现代码如下:


爬虫实战:抓取电影排行的详细流程


  这样就可以成功地将一页的10个电影信息都提取出来,这是一个列表形式,输出结果如下:


爬虫实战:抓取电影排行的详细流程


  但这样还不够,数据比较杂乱,我们再将匹配结果处理一下,遍历提取结果并生成字典,此时方法改写如下:


爬虫实战:抓取电影排行的详细流程


  这样就可以成功提取出电影的排名、图片、标题、演员、时间、评分等内容了,并把它赋值为一个个的字典,形成结构化数据。运行结果如下:


爬虫实战:抓取电影排行的详细流程


  到此为止,我们就成功提取了单页的电影信息。


  3.写入文件


  随后,我们将提取的结果写入文件,这里直接写入到一个文本文件中。这里通过JSON库的dumps()方法实现字典的序列化,并指定ensure_ascii参数为False,这样可以保证输出结果是中文形式而不是Unicode编码。代码如下:


爬虫实战:抓取电影排行的详细流程


  通过调用write_to_json()方法即可实现将字典写入到文本文件的过程,此处的content参数就是一部电影的提取结果,是一个字典。


  4.整合代码


  最后,实现main()方法来调用前面实现的方法,将单页的电影结果写入到文件。相关代码如下:


爬虫实战:抓取电影排行的详细流程


  到此为止,我们就完成了单页电影的提取,也就是首页的10部电影可以成功提取并保存到文本文件中了。


  综上可知,抓取电影排行操作有些麻烦的,但整合之后,其实代码也并不是很多。本文主要是关于requests和正则表达式的用法,大家可以参考下的。


相关文章内容简介
推荐阅读
  • 29 2019-06
    找个质量好的动态代理ip

    找个质量好的动态代理ip,因为如果动态代理ip质量不错,使用起来更佳的顺畅,能极大的提高工作效率。

  • 04 2019-06
    ip代理服务器软件配合爬虫活动

    ip代理服务器软件配合爬虫活动,抓取的数据速度会加快,效率也会高很多,故ip代理服务器软件是爬虫抓取数据的必备工具。

  • 27 2019-05
    代理服务器是否能防止黑客攻击

    代理服务器是否能防止黑客攻击,关于安全问题,估计大家都比较的关心。现在正是网络的世界,离不开网络,依靠网络,那么如何保障安全是非常的重要的,那么代理服务器是否能防止黑客攻

  • 18 2019-07
    邮件营销记得用ip代理软件

    邮件营销记得用ip代理软件,因为这样可以避免被当作垃圾邮件,如果被系统当做垃圾邮件,这样你所发给用户的邮件都被扔到垃圾箱了。估计用户也不会跑到垃圾箱翻你的营销邮件了。

  • 04 2019-02
    认识Scrapy爬虫框架,采用Scrapy提高效率

    虽然各个网站的反爬虫都不少,并进行了各种的限制,比如访问频率限制,这大大影响了网络爬虫的效率,让爬虫不能按时完成任务,这该怎么好?

  • 20 2019-12
    免费代理IP​能防封吗?

    免费代理IP​能防封吗?这个其实比较难,因为免费的质量如何,即使不用,大家心理也是有数的,不管怎么检测都是会对效果有些影响的。既然免费的IP满足不了爬虫的需求并且不是很稳定,因

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部