您的位置:首页 > 新闻资讯 >文章内容
【新手入门】Python爬虫爬取步骤分析
来源:互联网 作者:admin 时间:2019-02-25 16:44:06

  网络爬虫的基本理念这里就不讲了,如果大家还没有清楚的,可以先去查一下。本文主要讲Python爬虫爬取步骤分析,很多人都分享了自己爬取的代码,其实新手是看不懂的,一篇的代码看下来,可能还蒙圈了,不是说这是最简单的编程语言吗?这是因为大家可能还没有弄明白其中的一些步骤。


  HTTP代理工程师表示,其实爬虫爬取的过程,跟我们浏览网页的流程是差不多的,比如:我们在浏览器的地址栏中输入地址,打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。


  HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。那么爬虫要想抓取数据,是如何实现的呢?


  一、python获取html页面


  其实,最基本的抓站,两句话就可以了:


  importurllib2


  content=urllib2.urlopen('http://XXXX').read()


  这样可以得到整个html文档,关键的问题是我们可能需要从这个文档中获取我们需要的有用信息,而不是整个文档。这就需要解析充满了各种标签的html。


  二、python爬虫抓取页面后解析html方法


  1.html解析库SGMLParser


  Python默认自带HTMLParser以及SGMLParser等等解析器,前者实在是太难用了,我就用SGMLParser写了一个示例程序:


【新手入门】Python爬虫爬取步骤分析


  很简单,这里定义了一个叫做ListName的类,继承SGMLParser里面的方法。使用一个变量is_h4做标记判定html文件中的h4标签,如果遇到h4标签,则将标签内的内容加入到List变量name中。解释一下start_h4()和end_h4()函数,他们原型是SGMLParser中的


  start_tagname(self, attrs)


  end_tagname(self)


  tagname就是标签名称,比如当遇到

,就会调用start_pre,遇到

,就会调用end_pre。attrs为标签的参数,以[(attribute,value),(attribute,value),...]的形式传回。



  2.html解析库pyQuery


  pyQuery是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方便。使用前需要安装,easy_installpyquery即可,或者Ubuntu下


【新手入门】Python爬虫爬取步骤分析


  3.html解析库BeautifulSoup


  有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的BeautifulSoup来解析html文档,它具有很好的容错能力。


  以上对Python爬虫爬取步骤分析进行了分析,不同的人有不同的习惯,细节处理上也可能是不一样的,仅供参考。


相关文章内容简介
推荐阅读
  • 28 2019-05
    爬虫代理隐藏IP可以保护安全

    爬虫代理隐藏IP可以保护安全,这一点是毋庸置疑的,IP是上网的必要条件,没有分配IP地址这些上不了网的。上网的设备都会连接唯一的IP地址,就像我们的身份证一样。如果我们能够隐藏这个

  • 17 2019-12
    电脑怎么修改IP地址?

    电脑怎么修改IP地址?网络给我们带来了便利的同时也开拓了我们的眼界,但是我们在上网的时候总会遇到一些不愉快的经历,比如被论坛禁言了,被网站封IP地址了,这时候我们就需要通过修改I

  • 04 2020-03
    选择代理IP需要注意的地方

    现在很多公司都在网上开展业务,但由于网络的一些限制,代理IP这个工具就走入了人们的生活,使用代理IP可以解决各种IP限制为问题。随着需求增多,能提供代理IP的商家也越来越多。那么,

  • 16 2019-04
    提取IP代理最佳使用方案

    爬虫使用了IP代理之后,还需要设置合理的使用方法,否则使用效果不够好,影响效率不说,还浪费IP资源的,加大成本的支出,那么提取IP代理最佳使用方案是怎样的呢?

  • 04 2019-10
    html标签干扰爬虫破解方法

    不同的网站采用不一样的反爬虫方法,这个时候就需要我们爬虫工程师去进行好好研究了。针对每一种不同的方案,我们都能够找到一个突破口,这样才是爬虫的正确姿态。代理IP下面跟大家说

  • 10 2019-06
    搭建代理服务器要花费多少成本

    搭建代理服务器要花费多少成本,这一点估计很多人都没有想过,其实大部分的人使用代理ip都是考虑抓取免费的,或者是租用商家的,很多人自己去搭建的。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部