您的位置:首页 > 新闻资讯 >文章内容
JavaScript渲染的网页,为什么使用IP代理也获取不了
来源:互联网 作者:admin 时间:2019-03-20 17:01:45

  JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那么怎么解决这个问题呢?


  说到这里,可能有些人马上就会想到,看下浏览器调试器的network视图,然后也发同样的http请求不就好了。


  遗憾的是,这个网站也不是省油的灯。它在服务端作了安全限制,只有网页自己发出的请求才能通过安全验证。


  我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。


  首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。


  接下来我将介绍如何利用Webkit从JS渲染网页中获取数据。什么是Webkit呢?Webkit可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Webkit就是其底层的网页渲染工具。Webkit是QT库的一部分,因此如果你已经安装QT和PyQT4库,那么你可以直接运行之。


  你可以利用命令行来安装该软件库:


  sudoapt-getinstallpython-qt4


  现在所有的准备工作已经完成,接下来我们将使用一个全新的方法来提取信息。


  解决方案


  我们首先通过Webkit发送请求信息,然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从HTML数据中提取出有效的信息。这个过程需要一点时间,不过你会惊奇地发现整个网页被完整地加载下来了。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  类Render可以用来渲染网页,当我们新建一个Render类时,它可以将url中的所有信息加载下来并存到一个新的框架中。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用以上的代码我们将HTML结果储存到变量result中,由于lxml无法直接处理该特殊的字符串数据,因此我们需要转换数据格式。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用上述代码我们可以获得所有的档案链接信息,接下来我们可以利用这些Render和这些URL链接来提取文本内容信息。Webkit提供了一个强大的网页渲染工具,我们可以利用这个工具从JS渲染的网页中抓取出有效的信息。


  上介绍了关于如何从JS渲染的网页中抓取信息的方法,仅供参考的。如果网页中含有 JavaScript代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。若是有其他的方法,大家也可以分享出来。


相关文章内容简介
推荐阅读
  • 05 2020-03
    高效利用爬虫采集大数据

    互联网时代飞速到来,随着用户量和使用量的增多,互联网现在可以说是一个庞大的数据库资源,而且是杂乱无章无结构的大数据库,如何将这些数据采集并有组织的呈现出来将会是一个很大的

  • 19 2019-10
    为什么免费IP总是那么快失效?

    代理IP也有免费跟付费之分,如果都是能够用的IP,有免费的当然去选择免费的,能省钱大家都乐意。但是为什么在有免费IP的情况下,付费代理还发展得那么好呢?

  • 23 2020-09
    使用代理ip被封的原因

    在网络爬虫采集数据信息是必要要用到代理ip,而使用代理ip的最大有点就是突破ip限制,被封的问题。而为什么使用了代理ip还是会经常被封掉?

  • 23 2019-11
    用代理IP爬虫要遵守规则

    用代理IP网络爬虫很多人已经见怪不怪了,甚至自己通过网络找到代理服务商购买代理IP服务,个人也能够简单开启爬虫项目,也能够用它来换IP。

  • 26 2019-03
    使用休闲平台进行代理服务是怎样操作运营的?

    所谓的休闲平台也是代理服务器的一种,而他到底是如何使用的还是需要大家了解之后才能够知道。毕竟服务器的使用对于企业的各大网站来说是必不可少的,而对于那些想要成为开发者的初级

  • 06 2020-03
    国内ip代理软件哪有卖

    生活中,很多从事网络推销的工作人员,都会选择在一段时间就进行IP更换,虽然这个更换的过程很繁琐,但是为了提高安全性能和网页浏览速度,也只能花时间话人力来进行手动设置,一些不

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部