您的位置:首页 > 新闻资讯 >文章内容
【新手入门】Python爬虫爬取步骤分析
来源:互联网 作者:admin 时间:2019-02-25 16:44:06

  网络爬虫的基本理念这里就不讲了,如果大家还没有清楚的,可以先去查一下。本文主要讲Python爬虫爬取步骤分析,很多人都分享了自己爬取的代码,其实新手是看不懂的,一篇的代码看下来,可能还蒙圈了,不是说这是最简单的编程语言吗?这是因为大家可能还没有弄明白其中的一些步骤。


  HTTP代理工程师表示,其实爬虫爬取的过程,跟我们浏览网页的流程是差不多的,比如:我们在浏览器的地址栏中输入地址,打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。


  HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。那么爬虫要想抓取数据,是如何实现的呢?


  一、python获取html页面


  其实,最基本的抓站,两句话就可以了:


  importurllib2


  content=urllib2.urlopen('http://XXXX').read()


  这样可以得到整个html文档,关键的问题是我们可能需要从这个文档中获取我们需要的有用信息,而不是整个文档。这就需要解析充满了各种标签的html。


  二、python爬虫抓取页面后解析html方法


  1.html解析库SGMLParser


  Python默认自带HTMLParser以及SGMLParser等等解析器,前者实在是太难用了,我就用SGMLParser写了一个示例程序:


【新手入门】Python爬虫爬取步骤分析


  很简单,这里定义了一个叫做ListName的类,继承SGMLParser里面的方法。使用一个变量is_h4做标记判定html文件中的h4标签,如果遇到h4标签,则将标签内的内容加入到List变量name中。解释一下start_h4()和end_h4()函数,他们原型是SGMLParser中的


  start_tagname(self, attrs)


  end_tagname(self)


  tagname就是标签名称,比如当遇到

,就会调用start_pre,遇到

,就会调用end_pre。attrs为标签的参数,以[(attribute,value),(attribute,value),...]的形式传回。



  2.html解析库pyQuery


  pyQuery是jQuery在python中的实现,能够以jQuery的语法来操作解析HTML文档,十分方便。使用前需要安装,easy_installpyquery即可,或者Ubuntu下


【新手入门】Python爬虫爬取步骤分析


  3.html解析库BeautifulSoup


  有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的BeautifulSoup来解析html文档,它具有很好的容错能力。


  以上对Python爬虫爬取步骤分析进行了分析,不同的人有不同的习惯,细节处理上也可能是不一样的,仅供参考。


相关文章内容简介
推荐阅读
  • 22 2019-01
    如何突破反爬虫机制抓取网页信息?

    爬虫怎么抓取网页信息?人人都说使用Python爬虫非常简单,容易学,无非是分析HTML、json数据,真的就这么简单吗?太天真了,网站都设有反爬虫机制,想要获取数据,首先要不被限制了,能突

  • 26 2019-02
    使用代理IP访问https网站是否能保证数据的安全性

    使用代理IP访问https的网站,虽然浏览器会显示当前通信已经加密,但是由于使用的是代理IP,本机首先发送数据到代理服务器,代理服务器与https的网站之间是加密通信

  • 28 2019-06
    最新ip代理有什么用?

    最新ip代理有什么用?如果用到最新ip代理,IP资源的质量上会更好,使用效果也是出乎意料之外的,这对于工作都有什么好处呢?

  • 20 2019-06
    更换ip地址找http代理

    更换ip地址找http代理,这种更换IP的方法是最快的,而且效果也好的,能换的IP也多,具体能换哪里的IP地址,要看商家的规模,像机灵代理的话,可以更换到全国200+城市的IP线路,是相当的不错

  • 29 2019-07
    不知道怎么选代理IP看这里

    不知道怎么选代理IP看这里,下面给大家分析下代理IP的一些参数,教大家怎么选靠谱的代理IP!

  • 28 2019-03
    网站反爬虫策略,用代理IP都能解决吗?

    很多人会使用到网页采集器,其实这也是通过程序来进行采集的,如果没有使用代理IP,采集速度快了,照样是会被封住的。另外,这些网站还有其他的一些反爬策略,同样也会影响到我们采集

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961