您的位置:首页 > 新闻资讯 >文章内容
爬虫借用代理IP获取到薪资信息
来源:互联网 作者:admin 时间:2019-04-28 10:41:09

  爬虫借用代理IP获取到薪资信息,为什么要这么麻烦呢?这是因为这些数据,网站并不想随便给你爬取,但如果你想知道一个比较准的结果,那么收集大量信息再分析,这结果无疑是更加的准确。


  而且,面对网站限制爬取薪资信息这种情况,我们可以使用代理IP来助阵的,就像机灵代理的使用,方便快捷。下面就来看看Python爬虫去拉勾网爬取薪资的过程。


  1.网页分析


  我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前。可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息。


爬虫借用代理IP获取到薪资信息


  分析比较复杂的页面请求与响应信息,推荐使用Fiddler,对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以,比如像火狐的FireBug等等,只要轻轻一按F12,所有的请求的信息都会事无巨细的展现在你面前。


  经由分析网站的请求与响应过程可知,拉勾网的招聘信息都是由XHR动态传递的。我们发现,以POST方式发出的请求有两个,分别是companyAjax.json和positionAjax.json,它们分别控制当前显示的页面和页面中包含的招聘信息。


  可以看到,我们所需要的信息包含在positionAjax.json的Content->result当中,其中还包含了一些其他参数信息,包括总页面数(totalPageCount),总招聘登记数(totalCount)等相关信息。


  2.请求方式


  知道我们所要抓取的信息在哪里是最为首要的,知道信息位置之后,接下来我们就要考虑如何通过Python来模拟浏览器,获取这些我们所需要的信息。


  其中比较关键的步骤在于如何仿照浏览器的Post方式,来包装我们自己的请求。request包含的参数包括所要抓取的网页url,以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)。包装完毕之后,就可以像浏览器一样访问拉勾网,并获得页面数据了。


  3.抓取方式


  获得页面信息之后,我们就可以开始爬虫数据中最主要的步骤:抓取数据。


  抓取数据的方式有很多,像正则表达式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况,使用其中一个,又或多个结合使用。


  4.信息存储


  获得原始数据之后,为了进一步的整理与分析,我们有结构有组织的将抓取到的数据存储到excel中,方便进行数据的可视化处理。


  这是使用xlsxwriter存储的数据,没有问题,可以正常使用。到从为止,一个抓取拉勾网招聘信息的小爬虫就诞生了。


  如果爬虫借用代理IP获取到薪资信息,过程会简单快捷很多,不然一直被限制住,慢慢爬也不知道何年何月才能拿到结果了。


相关文章内容简介
推荐阅读
  • 25 2019-02
    Java爬虫之匿名代理IP的获取

    爬虫,AI一直是近年来为之关注的焦点,Java以自己独有的严格的语言约束和庞大且成熟的各种框架,成为企业一度的选择,也成为当今码农必知必会的编程语言。

  • 30 2019-12
    高匿代理对爬虫的重要性!

    高匿代理对爬虫的重要性!在进行爬虫采集数据的过程当中,我们经常会遇到爬虫被目标网站限制ip访问频率,为了攻克这个难题让爬虫采集数据变得顺利,我们必须使用代理ip来变换爬虫的ip访

  • 01 2019-08
    爬虫被限制IP访问频率可用http代理解决

    爬虫被限制IP访问频率可用http代理解决!一些网站为了控制流量和防止网站被攻击,因此会设置单ip一分钟内允许的最大请求数。因此网站的反爬机制会检查来访的ip地址,为了防止ip被封,这时

  • 26 2019-07
    数据采集遇上IP地址被封怎么办?

    数据采集遇上IP地址被封怎么办?我要抓取一个网站的内容,需要访问那个网站,不过由于访问太频繁,他们反爬程序就会封锁我的IP或者暂时不让我的IP去访问,而且程序就会时常链接失败,中

  • 27 2019-03
    最新代理ip的使用是否符合客户需求?

    现在代理IP越来越受到大家的欢迎,所以对于这种发明的研究也加深,最新代理IP的使用是不是可以更加的符合客户最近的需求?由于使用的越来越频繁,所以也让客户发现他的缺点和让他们改

  • 03 2019-04
    封锁IP破解--代理IP伪装不同用户

    如果遇到的网站反爬虫机制比较严,网络爬虫怎么入手爬取比较好?一般上来讲,只要利益大于成本,不管反爬虫机制有多严,网络爬虫都是有办法的,大不了多找些工具,把程序做好些。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部