您的位置:首页 > 新闻资讯 >文章内容
JavaScript渲染的网页,为什么使用IP代理也获取不了
来源:互联网 作者:admin 时间:2019-03-20 17:01:45

  JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那么怎么解决这个问题呢?


  说到这里,可能有些人马上就会想到,看下浏览器调试器的network视图,然后也发同样的http请求不就好了。


  遗憾的是,这个网站也不是省油的灯。它在服务端作了安全限制,只有网页自己发出的请求才能通过安全验证。


  我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。


  首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。


  接下来我将介绍如何利用Webkit从JS渲染网页中获取数据。什么是Webkit呢?Webkit可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Webkit就是其底层的网页渲染工具。Webkit是QT库的一部分,因此如果你已经安装QT和PyQT4库,那么你可以直接运行之。


  你可以利用命令行来安装该软件库:


  sudoapt-getinstallpython-qt4


  现在所有的准备工作已经完成,接下来我们将使用一个全新的方法来提取信息。


  解决方案


  我们首先通过Webkit发送请求信息,然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从HTML数据中提取出有效的信息。这个过程需要一点时间,不过你会惊奇地发现整个网页被完整地加载下来了。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  类Render可以用来渲染网页,当我们新建一个Render类时,它可以将url中的所有信息加载下来并存到一个新的框架中。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用以上的代码我们将HTML结果储存到变量result中,由于lxml无法直接处理该特殊的字符串数据,因此我们需要转换数据格式。


JavaScript渲染的网页,为什么使用IP代理也获取不了


  利用上述代码我们可以获得所有的档案链接信息,接下来我们可以利用这些Render和这些URL链接来提取文本内容信息。Webkit提供了一个强大的网页渲染工具,我们可以利用这个工具从JS渲染的网页中抓取出有效的信息。


  上介绍了关于如何从JS渲染的网页中抓取信息的方法,仅供参考的。如果网页中含有 JavaScript代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。若是有其他的方法,大家也可以分享出来。


相关文章内容简介
推荐阅读
  • 11 2019-12
    怎么在UC浏览器上使用IP代理​?

    怎么在UC浏览器上使用IP代理​?UC浏览器在手机上有着极大的占用率,凭借精简快速的系统占领了非常大的流量入口,我们有时候需要在UC浏览器上使用代理ip的时候,该如何对其进行设置呢?下面

  • 15 2020-10
    换ip如何解决反爬虫限制

    当网站的服务器监测到你的ip对网站做出了异常的访问,那么网站就会对你的ip做出限制。你可能就无法在利用这个ip来完成页面上面的操作了。

  • 04 2019-12
    Linux虚拟机如何设置静态IP?

    使用过代理IP​的用户,可能会对静态IP以及动态IP比较了解了,它们可以分别用在不同的场景中,用户可以按照自己的使用需求在机灵代理进行选购。

  • 13 2019-04
    伪装IP地址,机灵代理出马可以换国内IP

    伪装IP地址,这有难度吗?随着互联网的普及,人们每天都在与互联网打交道。我们都知道Internet访问需要IP地址,否则将无法访问Internet。即使您使用无线网络,也需要分配IP地址以连接到Internet

  • 22 2019-02
    使用scrapy框架来写爬虫有什么优势?

    我们在写爬虫的时候,都会选用一些爬虫框架,这样更加省事。比如Scrapy,PySpider,Crawley,Portia等等,其中Scrapy是最常用的一种,那么使用Scrapy爬虫框架有什么优势?为什么大家喜欢使用scrapy框

  • 14 2019-08
    爬虫不用代理IP根本动不了,用还是不用?

    爬虫不用代理IP根本动不了,用还是不用?上次有个朋友问,爬虫必须使用代理IP吗?以下为网友回答:非必须,但是不用回很难受,爬虫一直爬一个网站,相当于你一直找一个人打招呼,时间

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部