您的位置:首页 > 新闻资讯 >文章内容
JavaScript渲染的网页,为什么使用IP代理也获取不了
来源:互联网 作者:admin 时间:2019-03-20 17:01:45

  JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那么怎么解决这个问题呢?


  说到这里,可能有些人马上就会想到,看下浏览器调试器的network视图,然后也发同样的http请求不就好了。


  遗憾的是,这个网站也不是省油的灯。它在服务端作了安全限制,只有网页自己发出的请求才能通过安全验证。


  我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。


  首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。


  接下来我将介绍如何利用Webkit从JS渲染网页中获取数据。什么是Webkit呢?Webkit可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Webkit就是其底层的网页渲染工具。Webkit是QT库的一部分,因此如果你已经安装QT和PyQT4库,那么你可以直接运行之。


  你可以利用命令行来安装该软件库:


  sudoapt-getinstallpython-qt4


  现在所有的准备工作已经完成,接下来我们将使用一个全新的方法来提取信息。


  解决方案


  我们首先通过Webkit发送请求信息,然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从HTML数据中提取出有效的信息。这个过程需要一点时间,不过你会惊奇地发现整个网页被完整地加载下来了。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  类Render可以用来渲染网页,当我们新建一个Render类时,它可以将url中的所有信息加载下来并存到一个新的框架中。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用以上的代码我们将HTML结果储存到变量result中,由于lxml无法直接处理该特殊的字符串数据,因此我们需要转换数据格式。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用上述代码我们可以获得所有的档案链接信息,接下来我们可以利用这些Render和这些URL链接来提取文本内容信息。Webkit提供了一个强大的网页渲染工具,我们可以利用这个工具从JS渲染的网页中抓取出有效的信息。


  上介绍了关于如何从JS渲染的网页中抓取信息的方法,仅供参考的。如果网页中含有 JavaScript代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。若是有其他的方法,大家也可以分享出来。


相关文章内容简介
推荐阅读
  • 22 2019-02
    网站使用AJAX异步加载后,爬虫是怎么进行抓取的?

    对于AJAX异步加载,大部分都是不理解的,但是我们都见过。其实我们日常使用设备上网的时候,经常会遇到AJAX异步加载,比如搜索信息会先出来一部分数据,当玩下滑的时候不断有新的数据出

  • 12 2019-06
    网上扫描的代理并不稳定

    网上扫描的代理并不稳定,但是不用给钱,所以很多人都愿意去使用的。不过很多项目都使用不了这网上扫描的代理,下面我们以数据采集为例:

  • 11 2019-06
    设置白名单使用代理IP

    设置白名单使用代理IP,这种使用方法是很简单的,下面我们就来看看代理IP的使用情况,如何使用代理IP最好呢?

  • 28 2019-05
    爬虫代理隐藏IP可以保护安全

    爬虫代理隐藏IP可以保护安全,这一点是毋庸置疑的,IP是上网的必要条件,没有分配IP地址这些上不了网的。上网的设备都会连接唯一的IP地址,就像我们的身份证一样。如果我们能够隐藏这个

  • 13 2019-07
    HTTP代理解开平台限制访问不受限

    HTTP代理解开平台限制访问不受限!我们使用HTTP代理,这是由于很多平台都设置了限制,而HTTP代理就是通往各个平台的钥匙,可以解开IP限制,让你顺畅的获取信息。

  • 23 2019-05
    免费代理IP都是骗人的用不了

    免费代理IP都是骗人的用不了,这里有必要说明一下,既然是免费的,就不存在骗人的说法,骗你什么了呢?

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961