您的位置:首页 > 新闻资讯 >文章内容
JavaScript渲染的网页,为什么使用IP代理也获取不了
来源:互联网 作者:admin 时间:2019-03-20 17:01:45

  JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那么怎么解决这个问题呢?


  说到这里,可能有些人马上就会想到,看下浏览器调试器的network视图,然后也发同样的http请求不就好了。


  遗憾的是,这个网站也不是省油的灯。它在服务端作了安全限制,只有网页自己发出的请求才能通过安全验证。


  我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。


  首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。


  接下来我将介绍如何利用Webkit从JS渲染网页中获取数据。什么是Webkit呢?Webkit可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Webkit就是其底层的网页渲染工具。Webkit是QT库的一部分,因此如果你已经安装QT和PyQT4库,那么你可以直接运行之。


  你可以利用命令行来安装该软件库:


  sudoapt-getinstallpython-qt4


  现在所有的准备工作已经完成,接下来我们将使用一个全新的方法来提取信息。


  解决方案


  我们首先通过Webkit发送请求信息,然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从HTML数据中提取出有效的信息。这个过程需要一点时间,不过你会惊奇地发现整个网页被完整地加载下来了。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  类Render可以用来渲染网页,当我们新建一个Render类时,它可以将url中的所有信息加载下来并存到一个新的框架中。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用以上的代码我们将HTML结果储存到变量result中,由于lxml无法直接处理该特殊的字符串数据,因此我们需要转换数据格式。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用上述代码我们可以获得所有的档案链接信息,接下来我们可以利用这些Render和这些URL链接来提取文本内容信息。Webkit提供了一个强大的网页渲染工具,我们可以利用这个工具从JS渲染的网页中抓取出有效的信息。


  上介绍了关于如何从JS渲染的网页中抓取信息的方法,仅供参考的。如果网页中含有 JavaScript代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。若是有其他的方法,大家也可以分享出来。


相关文章内容简介
推荐阅读
  • 17 2019-10
    什么是HTTPS通信过程?

    互联网的专业知识现在在网络上都可以直接搜索到,机灵代理为大家搜索了与代理IP使用时会遇到的相关概念知识,分享给大家学习。

  • 24 2019-03
    遇上封IP问题,IP代理能快速更换IP

    每当使用网络爬虫进行爬取数据时,都是要先准备好IP代理使用,否则突破不了网站的IP反爬虫。对于这个问题,大家一般都怎么解决?

  • 14 2019-08
    代理IP怎么加快网络爬虫的效率

    代理IP怎么加快网络爬虫的效率?互联网时代,公司需要搜集大批量的用户信息,并从中搜寻有价值的数据。大批用户信息的抓取,一般的抓取形式达不到要求,那么如何加快Python爬虫的抓取速

  • 31 2019-05
    IP代理能提高业务效率

    IP代理能提高业务效率,因为IP代理能够快速的切换IP地址,让我们继续工作。

  • 31 2019-05
    机灵代理带你Get修改IP的用处

    修改IP,这是非常常见的事情,不过修改IP都有什么用呢?修改ip也就是更改设备的ip,可以称为网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个代理中转与另一

  • 24 2019-06
    问答推广用代理IP不容易被封

    问答推广用代理IP不容易被封,大家可以尝试下这个做发法,效果相当的不错。目前来讲,问答推广依然很重要,问题推广就是以用户的角度去提问,这些问题内容也是用户想要知道的,信赖感

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部