您的位置:首页 > 新闻资讯 >文章内容
JavaScript渲染的网页,为什么使用IP代理也获取不了
来源:互联网 作者:admin 时间:2019-03-20 17:01:45

  JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那么怎么解决这个问题呢?


  说到这里,可能有些人马上就会想到,看下浏览器调试器的network视图,然后也发同样的http请求不就好了。


  遗憾的是,这个网站也不是省油的灯。它在服务端作了安全限制,只有网页自己发出的请求才能通过安全验证。


  我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。


  首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。


  接下来我将介绍如何利用Webkit从JS渲染网页中获取数据。什么是Webkit呢?Webkit可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Webkit就是其底层的网页渲染工具。Webkit是QT库的一部分,因此如果你已经安装QT和PyQT4库,那么你可以直接运行之。


  你可以利用命令行来安装该软件库:


  sudoapt-getinstallpython-qt4


  现在所有的准备工作已经完成,接下来我们将使用一个全新的方法来提取信息。


  解决方案


  我们首先通过Webkit发送请求信息,然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从HTML数据中提取出有效的信息。这个过程需要一点时间,不过你会惊奇地发现整个网页被完整地加载下来了。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  类Render可以用来渲染网页,当我们新建一个Render类时,它可以将url中的所有信息加载下来并存到一个新的框架中。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用以上的代码我们将HTML结果储存到变量result中,由于lxml无法直接处理该特殊的字符串数据,因此我们需要转换数据格式。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用上述代码我们可以获得所有的档案链接信息,接下来我们可以利用这些Render和这些URL链接来提取文本内容信息。Webkit提供了一个强大的网页渲染工具,我们可以利用这个工具从JS渲染的网页中抓取出有效的信息。


  上介绍了关于如何从JS渲染的网页中抓取信息的方法,仅供参考的。如果网页中含有 JavaScript代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。若是有其他的方法,大家也可以分享出来。


相关文章内容简介
推荐阅读
  • 05 2019-06
    国内代理ip获取的三个途径

    国内代理ip获取的三个途径,分别是什么呢?随着网络的使用,越来越多的人需要使用代理ip来解决ip限制的问题,但是不知道用谁的代理ip会比较好,小编这就为大家分享下国内代理ip获取的三

  • 22 2019-03
    Scrapy爬取知乎------配置代理IP和UA

    爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?

  • 17 2019-12
    低价的IP代理​软件靠谱吗?

    低价的IP代理​软件靠谱吗?谁都有想占便宜的心理,就看这诱惑够不够大,不过这廉价的产品,要考虑到安全问题,质量问题的。如果我们的IP被封了,要解决,使用IP代理软件,找廉价的如何?

  • 16 2019-05
    选择优质的爬虫代理供应商

    在这个时候,我们就需要用到爬虫代理。但是爬虫代理需要选择合适的供应商,但是如何选择优质的爬虫代理供应商呢?

  • 28 2019-11
    手机设置代理IP教程

    好像看到介绍电脑使用代理IP的教程比较多,那么手机要怎么使用代理IP呢?现在大家都使用手机上网比较频繁,手机上要怎么设置代理IP,我们一起来看看要如何操作。

  • 05 2019-05
    急需高质量的HTTP代理IP来救场

    急需高质量的HTTP代理IP来救场,有没有什么好的推荐呢?大家都知道,现在是大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部