您的位置:首页 > 新闻资讯 >文章内容
爬虫实战:抓取电影排行的详细流程
来源:互联网 作者:admin 时间:2019-04-02 16:22:26

  爬虫可以应用于许多行业,几乎是可以爬取全部的数据,比如说想知道最近最热门的电影,哪些题材电影比较受欢迎,还有一些电影的详细信息等等,这些都是可以通过爬虫进行爬取获取的。最为一名爬虫新手,多练是最快掌握爬虫编写的方法,今天我们来实践下爬取电影排行的一些操作:


  1.抓取分析


  找到我们需要抓取的目标站点,打开之后便可以查看到榜单信息。比如,排名第一的电影是霸王别姬,页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息。这样获到页面之后,再用正则表达式提取出相关信息,就可以得到TOP10的所有电影信息了。


爬虫实战:抓取电影排行的详细流程


  接下来用代码实现这个过程。首先抓取第一页的内容。我们实现了get_one_page()方法,并给它传入url参数。然后将抓取的页面结果返回,再通过main()方法调用。初步代码实现如下:


爬虫实战:抓取电影排行的详细流程


  2.正则提取


  接下来,回到网页看一下页面的真实源码。在开发者模式下的Network监听组件中查看源代码。


爬虫实战:抓取电影排行的详细流程


  注意,这里不要在Elements选项卡中直接查看源码,因为那里的源码可能经过JavaScript操作而与原始请求不同,而是需要从Network选项卡部分查看原始请求得到的源码。查看其中一个条目的源代码:


爬虫实战:抓取电影排行的详细流程


  可以看到,一部电影信息对应的源代码是一个dd节点,我们用正则表达式来提取这里面的一些电影信息。首先,需要提取它的排名信息,随后需要提取电影的图片,再往后需要提取电影的名称,再提取主演、发布时间、评分等内容时,都是同样的原理。最后,正则表达式写为:


  

  • .*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?).*?integer.*?>(.*?).*?fraction.*?>(.*?).*?


  这样一个正则表达式可以匹配一个电影的结果,里面匹配了7个信息。接下来,通过调用findall()方法提取出所有的内容。


  接下来,我们再定义解析页面的方法parse_one_page(),主要是通过正则表达式来从结果中提取出我们想要的内容,实现代码如下:


爬虫实战:抓取电影排行的详细流程


  这样就可以成功地将一页的10个电影信息都提取出来,这是一个列表形式,输出结果如下:


爬虫实战:抓取电影排行的详细流程


  但这样还不够,数据比较杂乱,我们再将匹配结果处理一下,遍历提取结果并生成字典,此时方法改写如下:


爬虫实战:抓取电影排行的详细流程


  这样就可以成功提取出电影的排名、图片、标题、演员、时间、评分等内容了,并把它赋值为一个个的字典,形成结构化数据。运行结果如下:


爬虫实战:抓取电影排行的详细流程


  到此为止,我们就成功提取了单页的电影信息。


  3.写入文件


  随后,我们将提取的结果写入文件,这里直接写入到一个文本文件中。这里通过JSON库的dumps()方法实现字典的序列化,并指定ensure_ascii参数为False,这样可以保证输出结果是中文形式而不是Unicode编码。代码如下:


爬虫实战:抓取电影排行的详细流程


  通过调用write_to_json()方法即可实现将字典写入到文本文件的过程,此处的content参数就是一部电影的提取结果,是一个字典。


  4.整合代码


  最后,实现main()方法来调用前面实现的方法,将单页的电影结果写入到文件。相关代码如下:


爬虫实战:抓取电影排行的详细流程


  到此为止,我们就完成了单页电影的提取,也就是首页的10部电影可以成功提取并保存到文本文件中了。


  综上可知,抓取电影排行操作有些麻烦的,但整合之后,其实代码也并不是很多。本文主要是关于requests和正则表达式的用法,大家可以参考下的。


相关文章内容简介
推荐阅读
  • 08 2019-07
    爬虫程序效率不够找海量动态IP

    爬虫程序效率不够找海量动态IP,这是一个非常好的解决方法。由于网站有反爬机制,其中IP限制是非常限制了爬虫的速度的,如果不降低爬取速度,分分钟被封,这太麻烦了。

  • 27 2019-11
    用机灵代理换IP软件的好处?

    使用机灵代理来换IP有什么好处?机灵代理软件为什么那么多人选择呢?今天我们来看看代理IP的魅力点存在哪些地方吧。

  • 31 2019-07
    用代理IP去采集数据要看匿名度

    用代理IP去采集数据要看匿名度,这是为什么呢?很多人由于网络限制问题,选择了代理但还是被封帐号,甚至自己的真实IP也被封。这是为什么呢?用代理被封要看匿名度,其实,用了代理后

  • 11 2019-05
    高效廉价的http代理去哪找?

    高效廉价的http代理去哪找?现在技术发展快,用户的数据也容易被获取到,加入大数据的分析可以分析到很多有价值的信息,但是这些数据并不是随便就能获取到的,在采集信息的时候是需要

  • 10 2019-04
    搭建IP代理池步骤:IP的获取、存放、检测、外部接口

    搭建IP代理池步骤有哪些?在公司做分布式深网爬虫,搭建了一套稳定的IP代理池服务,为上千个爬虫提供有效的IP代理,保证各个爬虫拿到的都是对应网站有效的IP代理,从而保证爬虫快速稳定

  • 07 2020-02
    如何挑选高质量爬虫代理

    在互联网时代,我们的生活和工作都离不开网站。我们在上网的时候,很多时候都需要用到代理,爬虫代理在目前是很火热的。之所以要用到爬虫代理,是因为我们有时候需要更换ip,但是如何

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部