您的位置:首页 > 新闻资讯 >文章内容
爬虫实战:抓取电影排行的详细流程
来源:互联网 作者:admin 时间:2019-04-02 16:22:26

  爬虫可以应用于许多行业,几乎是可以爬取全部的数据,比如说想知道最近最热门的电影,哪些题材电影比较受欢迎,还有一些电影的详细信息等等,这些都是可以通过爬虫进行爬取获取的。最为一名爬虫新手,多练是最快掌握爬虫编写的方法,今天我们来实践下爬取电影排行的一些操作:


  1.抓取分析


  找到我们需要抓取的目标站点,打开之后便可以查看到榜单信息。比如,排名第一的电影是霸王别姬,页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息。这样获到页面之后,再用正则表达式提取出相关信息,就可以得到TOP10的所有电影信息了。


爬虫实战:抓取电影排行的详细流程


  接下来用代码实现这个过程。首先抓取第一页的内容。我们实现了get_one_page()方法,并给它传入url参数。然后将抓取的页面结果返回,再通过main()方法调用。初步代码实现如下:


爬虫实战:抓取电影排行的详细流程


  2.正则提取


  接下来,回到网页看一下页面的真实源码。在开发者模式下的Network监听组件中查看源代码。


爬虫实战:抓取电影排行的详细流程


  注意,这里不要在Elements选项卡中直接查看源码,因为那里的源码可能经过JavaScript操作而与原始请求不同,而是需要从Network选项卡部分查看原始请求得到的源码。查看其中一个条目的源代码:


爬虫实战:抓取电影排行的详细流程


  可以看到,一部电影信息对应的源代码是一个dd节点,我们用正则表达式来提取这里面的一些电影信息。首先,需要提取它的排名信息,随后需要提取电影的图片,再往后需要提取电影的名称,再提取主演、发布时间、评分等内容时,都是同样的原理。最后,正则表达式写为:


  

  • .*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?).*?integer.*?>(.*?).*?fraction.*?>(.*?).*?


  这样一个正则表达式可以匹配一个电影的结果,里面匹配了7个信息。接下来,通过调用findall()方法提取出所有的内容。


  接下来,我们再定义解析页面的方法parse_one_page(),主要是通过正则表达式来从结果中提取出我们想要的内容,实现代码如下:


爬虫实战:抓取电影排行的详细流程


  这样就可以成功地将一页的10个电影信息都提取出来,这是一个列表形式,输出结果如下:


爬虫实战:抓取电影排行的详细流程


  但这样还不够,数据比较杂乱,我们再将匹配结果处理一下,遍历提取结果并生成字典,此时方法改写如下:


爬虫实战:抓取电影排行的详细流程


  这样就可以成功提取出电影的排名、图片、标题、演员、时间、评分等内容了,并把它赋值为一个个的字典,形成结构化数据。运行结果如下:


爬虫实战:抓取电影排行的详细流程


  到此为止,我们就成功提取了单页的电影信息。


  3.写入文件


  随后,我们将提取的结果写入文件,这里直接写入到一个文本文件中。这里通过JSON库的dumps()方法实现字典的序列化,并指定ensure_ascii参数为False,这样可以保证输出结果是中文形式而不是Unicode编码。代码如下:


爬虫实战:抓取电影排行的详细流程


  通过调用write_to_json()方法即可实现将字典写入到文本文件的过程,此处的content参数就是一部电影的提取结果,是一个字典。


  4.整合代码


  最后,实现main()方法来调用前面实现的方法,将单页的电影结果写入到文件。相关代码如下:


爬虫实战:抓取电影排行的详细流程


  到此为止,我们就完成了单页电影的提取,也就是首页的10部电影可以成功提取并保存到文本文件中了。


  综上可知,抓取电影排行操作有些麻烦的,但整合之后,其实代码也并不是很多。本文主要是关于requests和正则表达式的用法,大家可以参考下的。


相关文章内容简介
推荐阅读
  • 12 2019-06
    网上公开的免费代理ip隐患多

    网上公开的免费代理ip隐患多,虽然如此,但是依然有很多人在使用,这是为何呢?

  • 14 2020-01
    为何使用代理ip依旧被封

    有朋友来问我,为什么我用了机灵代理的代理IP还是被封了。他很纳闷,正是因为IP被封才来买代理IP的,没想到还是被封。

  • 28 2020-04
    一手代理IP​有什么优势

    很多朋友都在使用代理IP,不同的代理IP有不同的区别,其中有很朋友会选择一手的代理IP,那么什么样的代理IP才能叫一手代理IP呢?为什么很多用户会热衷于选择一手代理IP呢?她有什么好处和

  • 18 2019-01
    python爬虫为什么一定要用代理

    如今大数据时代,python爬虫遍地走,但python爬虫也是有天敌的,那就是反爬虫,它限制了python爬虫。并且随着网络爬虫的日渐壮大,反爬虫也在不断进化,对于网站的反爬虫,又该如何突破呢?

  • 25 2019-11
    用代理IP也要有账户密码?

    最近有一些用户使用短效优质代理IP时候,遇到了407错误,或者通过浏览器设置代理IP上网的时候,弹出“用户名和密码”对话框。很多用户不明白为什么使用代理IP,还需要用户名和密码才能使

  • 16 2019-05
    利用代理IP刷单有效吗?

    利用代理IP刷单有效吗?如今可谓是电商这个行业发展的春天,无论是一些传统的网络购物平台,或者是自己做生意的微商,强大的最近几年的电商市场。但是行业强大之后,竞争也会越来越大

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部