您的位置:首页 > 新闻资讯 >文章内容
网站使用AJAX异步加载后,爬虫是怎么进行抓取的?
来源:互联网 作者:admin 时间:2019-02-22 16:53:18

    对于AJAX异步加载,大部分都是不理解的,但是我们都见过。其实我们日常使用设备上网的时候,经常会遇到AJAX异步加载,比如搜索信息会先出来一部分数据,当玩下滑的时候不断有新的数据出现。


    也就死说,使用AJAX异步加载,可以实现在不重新加载整个网页的情况下,对网页的某部分进行更新。那么对于网站使用AJAX异步加载后,爬虫是怎么进行抓取的?


    对于这类网页,我们一般采用两种方法:


    1、通过抓包找到异步加载请求的真正地址


    2、通过PhantomJS等无头浏览器执行JS代码后再抓取


    但是通常采取第一种方法,因为第二种方法使用无头浏览器会大大降低抓取的效率。


    异步加载网站抓取示例 :


    使用豆瓣电影分类排行榜作为抓取示例,电影信息网页源码中没有,并且采用鼠标下拉更新页面,这时需要我们在需要抓取的页面打开Chrome的开发者工具,选择network,实现一次下拉刷新


    发现新增了一个get请求,并且响应为JSON格式。观察JSON的内容,发现正是需要抓取的内容。


    抓取内容的问题解决了,接下来处理多页抓取问题,因为请求为get形式,所以首先进行几次下拉刷新,观察请求链接的变化,会发现请求的地址中只有start的值在变化,并且每次刷新增加20,其他都不变,所以我们更改这个参数就可以实现翻页。


    由于之前已经在items.py中对需要抓取的数据做了声明,所以只需要在scraoyspider/spiders目录下创建一个新的爬虫文件


    douban_actions.py,代码如下:


网站使用AJAX异步加载后,爬虫是怎么进行抓取的?

网站使用AJAX异步加载后,爬虫是怎么进行抓取的?


    然而,很多时候ajax请求都会经过后端鉴权,不能直接构造URL获取。这时就可以通过PhantomJS、chromedriver等配合Selenium模拟浏览器动作,抓取经过js渲染后的页面。


    使用这种方法有时会遇到定位网页页面元素定位不准的情况,这时就要注意网页中的frame标签,frame标签有frameset、frame、iframe三种,frameset跟其他普通标签没有区别,不会影响到正常的定位,而frame与iframe对selenium定位而言是一样的,需要进行frame的跳转。


    以上就是如何抓取AJAX异步加载页面的方法,仅供参考。不管是面对哪种反爬虫,其实只要舍得花成本,还是有方法可以抓取的,毕竟不管反爬虫多么的厉害,也是人弄的,总有人技术更好。但是当成本高于经济效率时,自然就不会抓取了。


相关文章内容简介
推荐阅读
  • 24 2019-05
    混淆代理和匿名代理哪里不同

    有见过混淆代理(DistortingProxy)吗?这个代理其实跟匿名代理差不过,也是会被访问的服务器发现使用了代理的,但是跟匿名代理还是有些不同的,那么混淆代理和匿名代理哪里不同呢?

  • 22 2019-02
    网站使用AJAX异步加载后,爬虫是怎么进行抓取的?

    对于AJAX异步加载,大部分都是不理解的,但是我们都见过。其实我们日常使用设备上网的时候,经常会遇到AJAX异步加载,比如搜索信息会先出来一部分数据,当玩下滑的时候不断有新的数据出

  • 28 2019-01
    爬虫伪装成浏览器后可以更换IP,突破网站的反爬虫机制

    面对网站的反爬虫机制,爬虫应该怎么办呢?若是爬虫稍微加快速度爬取数据,很快就会被网站的反爬虫机制检测到异常,并进行封IP处理,这样爬虫就无法完成任务了。那么爬虫应该如何伪装

  • 12 2019-06
    SOCKS与HTTP代理对比用哪个?

    SOCKS与HTTP代理对比用哪个?日常中见HTTP比较多些,而SOCKS估计就比较少了,这是不是说使用HTTP代理比较好呢?

  • 27 2019-12
    代理IP​有什么用途?

    代理IP​有什么用途?当IP被限制的时候,通过换IP的方式来解决。被封IP的原因有很多,当达到一些网站设定的阈值后,或者访问频率过快,IP就会被封。因此,为了解决IP限制问题,HTTP代理IP就

  • 13 2019-03
    游戏根据什么来反外挂和封号

    不管是什么游戏,如果使用玩家使用外挂以及多开账号获利,这些都是影响游戏的平衡性,因此游戏会通过各种的方法来侦察,找到用外挂和多开账号的玩家,并进行封号处理。如果玩家需要了

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部