您的位置:首页 > 新闻资讯 >文章内容
【新手入门】Python爬虫爬取步骤分析
来源:互联网 作者:admin 时间:2019-02-25 16:44:06

  网络爬虫的基本理念这里就不讲了,如果大家还没有清楚的,可以先去查一下。本文主要讲Python爬虫爬取步骤分析,很多人都分享了自己爬取的代码,其实新手是看不懂的,一篇的代码看下来,可能还蒙圈了,不是说这是最简单的编程语言吗?这是因为大家可能还没有弄明白其中的一些步骤。


  HTTP代理工程师表示,其实爬虫爬取的过程,跟我们浏览网页的流程是差不多的,比如:我们在浏览器的地址栏中输入地址,打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。


  HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。那么爬虫要想抓取数据,是如何实现的呢?


  一、python获取html页面


  其实,最基本的抓站,两句话就可以了:


  importurllib2


  content=urllib2.urlopen('http://XXXX').read()


  这样可以得到整个html文档,关键的问题是我们可能需要从这个文档中获取我们需要的有用信息,而不是整个文档。这就需要解析充满了各种标签的html。


  二、python爬虫抓取页面后解析html方法


  1.html解析库SGMLParser


  Python默认自带HTMLParser以及SGMLParser等等解析器,前者实在是太难用了,我就用SGMLParser写了一个示例程序:


【新手入门】Python爬虫爬取步骤分析


  很简单,这里定义了一个叫做ListName的类,继承SGMLParser里面的方法。使用一个变量is_h4做标记判定html文件中的h4标签,如果遇到h4标签,则将标签内的内容加入到List变量name中。解释一下start_h4()和end_h4()函数,他们原型是SGMLParser中的


  start_tagname(self, attrs)


  end_tagname(self)


  tagname就是标签名称,比如当遇到

,就会调用start_pre,遇到

,就会调用end_pre。attrs为标签的参数,以[(attribute,value),(attribute,value),...]的形式传回。



  2.html解析库pyQuery


  pyQuery是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方便。使用前需要安装,easy_installpyquery即可,或者Ubuntu下


【新手入门】Python爬虫爬取步骤分析


  3.html解析库BeautifulSoup


  有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的BeautifulSoup来解析html文档,它具有很好的容错能力。


  以上对Python爬虫爬取步骤分析进行了分析,不同的人有不同的习惯,细节处理上也可能是不一样的,仅供参考。


相关文章内容简介
推荐阅读
  • 21 2019-03
    爬虫用Requests设置代理IP的方法

    使用python中的包请求网站时,需要设置代理IP使用,否则无法正常获取到信息,那么爬虫用Requests设置代理IP的方法是怎样的?

  • 15 2019-03
    网络爬虫哪些数据需要进行伪装?IP伪装可以使用代理IP

    网络爬虫为了完成去目标网站抓取信息的任务,是必须要先进行伪装的,否则是拿不到信息的。关于网络爬虫的伪装,唯一的要求就是跟真实用户获取数据一样,若没有达到这个效果,自然也就

  • 15 2019-04
    普通代理IP的使用有风险吗?

    普通代理IP的使用有风险吗?优质的代理IP价格可不低的,如果需要的IP数量少些,这样总成本也没有多高,但如果需要大量使用优质代理IP,这成本数目过大了,很多企业可能承担不起,那么使

  • 04 2019-06
    企业选择http代理的原因

    企业选择http代理的原因,都有哪些?目前爬虫大和大数据采集、分析等领域,在很多时候都需要用到ip,以此达到切换ip的目的。切换ip有很多方法,不过目前越来越多的企业级用户选择使用http

  • 21 2019-01
    爬虫使用什么方法来突破IP封锁?使用机灵代理高匿名IP

    在爬虫满地跑的时代,网站为了自身的利益,肯定是要设置各种反爬虫机制的,常用的就是IP封锁,虽然爬虫还是可以使用代理IP来突破这个封锁的,但是使用代理IP总是花时间或者花成本的,这

  • 28 2019-10
    代理IP的使用人群变广

    电商、营销人员等都需要扩大自己的客源,那么想要获得更多的客户,线上推广是必不可少的。可以通过社交平台来进行好友添加,进行营销活动。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部