您的位置:首页 > 新闻资讯 >文章内容
代理IP教程:爬虫免登录如何实现?
来源:互联网 作者:admin 时间:2019-10-02 10:35:00

  互联网时代,数据获取的手段有很多,通过代理IP去开展的爬虫是其中的一种。当我们通过爬虫去访问目标网站,代理IP提供IP地址的切换,保障工作进程能够持续,这是数据获得的流程。网站爬虫实现免登录,我们一般是通过cookie跟session来进行。


代理IP教程:爬虫免登录如何实现


  一、Cookie的机制


  Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能。


  Cookie的Domain和Path属性标识了这个Cookie是哪一个网站发送给浏览器的;Cookie的Expires属性标识了Cookie的有 效时间,当Cookie的有效时间过了之后,这些数据就被自动删除了。


  如果不设置过期时间,则表示这个Cookie生命周期为浏览器会话期间,只要关闭浏览器窗口,Cookie就消失了。这种生命期为浏览会话期的 Cookie被称为会话Cookie。会话Cookie一般不保存在硬盘上而是保存在内存里。如果设置了过期时间,浏览器就会把Cookie保存到硬盘 上,关闭后再次打开浏览器,这些Cookie依然有效直到超过设定的过期时间。存储在硬盘上的Cookie可以在不同的浏览器进程间共享,比如两个IE窗 口。而对于保存在内存的Cookie,不同的浏览器有不同的处理方式。


  二、Session的机制


  Session是存放在服务器端的类似于HashTable结构(每一种Web开发技术的实现可能不一样,下文直接称之为HashTable)来存放用户 数据,当浏览器第一次发送请求时,服务器自动生成了一个HashTable和一个Session ID用来唯一标识这个HashTable,并将其通过响应发送到浏览器。当浏览器第二次发送请求,会将前一次服务器响应中的Session ID放在请求中一并发送到服务器上,服务器从请求中提取出Session ID,并和保存的所有Session ID进行对比,找到这个用户对应的HashTable。


  一般情况下,服务器会在一定时间内(默认20分钟)保存这个HashTable,过了时间限制,就会销毁这个HashTable。在销毁之前,程序员可以 将用户的一些数据以Key和Value的形式暂时存放在这个HashTable中。当然,也有使用数据库将这个HashTable序列化后保存起来的,这 样的好处是没了时间的限制,坏处是随着时间的增加,这个数据库会急速膨胀,特别是访问量增加的时候。一般还是采取前一种方式,以减轻服务器压力。


  三、实现“记住我的登录状态”的功能


  如果我们将Session ID通过Cookie发送到客户端的时候设置其过期时间为1年,那么在今后的一年时间内,客户端访问我的网站的时候都回将这个Session ID值发送到服务器上,服务器根据这个Session ID从内存或者数据库里面恢复存放Key-Value对的Hashtable。


  其实这已经很好的实现了我们的功能了。但是,实际上Session并不会一直都存在的,过了一定的时间之后,服务器上的Session就被 销毁了,以减轻服务器的访问压力。当服务器上的数据被销毁后,即使客户端上存放了Cookie也没有办法“记住我的登录状态”了。


  通用的实现办法是,将用户的用户名和加密之后的密码也通过Cookie的方式存放在客户端,当服务器上的Session销毁以后,使用Cookie里面存 放的用户名和加密之后的密码重新执行一次登录操作,重建Session,并更新客户端上Cookie中存放的的Session ID,而这个操作是发生在用户请求一个需要身份验证的页面资源的背后,对于用户来讲是透明的,于是就达到了“记住我的登录状态”的目的了。


  四、Session的客户端实现形式(即Session ID的保存方法)


  一般浏览器提供了两种方式来保存,还有一种是程序员使用HTML隐藏域的方式自定义实现:


  1、使用Cookie来保存,这是最常见的方法,本文“记住我的登录状态”功能的实现正式基于这种方式的。服务器通过设置Cookie的方式将Session ID发送到浏览器。如果我们不设置这个过期时间,那么这个Cookie将不存放在硬盘上,当浏览器关闭的时候,Cookie就消失了,这个Session ID就丢失了。如果我们设置这个时间为若干天之后,那么这个Cookie会保存在客户端硬盘中,即使浏览器关闭,这个值仍然存在,下次访问相应网站时,同样会发送到服务器上。


  2、使用URL附加信息的方式,也就是像我们经常看到JSP网站会有aaa.jsp?JSESSIONID=*一样的。这种方式和第一种方式里面不设置 Cookie过期时间是一样的。


  3、第三种方式是在页面表单里面增加隐藏域,这种方式实际上和第二种方式一样,只不过前者通过GET方式发送数据,后者使用POST方式发送数据。但是明显后者比较麻烦。


  通过这两种方式我们就能够实现免登录访问网站。


相关文章内容简介
推荐阅读
  • 29 2019-09
    Linux快速配置虚拟IP替换教程

    Linux怎么快速配置虚拟IP,才能够实现IP快速替换?实现起来步骤复杂吗?机灵代理下面为大家带来相关的教程给大家进行参考。

  • 11 2019-11
    使用代理IP上网与普通上网的不同

    网络现在已经非常普遍了,上网已经是大家日常生活中见怪不怪的一件平常事了。不过你知道我们与网络的沟通是如何实现的吗?如果是用了代理IP,与网络沟通的传输方式是否会有不同呢?

  • 25 2019-06
    封ip用免费的代理ip解决不了

    封ip用免费的代理ip解决不了,这是为什么呢?现在很多站长都会有抓取数据的需求,因此网络爬虫在一定程度上越来越火爆,其实爬虫的基本功能很简单,就是分析大量的url的html页面,从而提

  • 13 2019-04
    内网获取公网IP难吗?设置机灵代理使用即可

    内网获取公网IP难吗?我们内网使用的都是动态的IP地址,而且也不能直接连接上网,还需要使用公网IP的,着公网IP怎么来的呢?找代理IP商可以更换公网IP吗?我们一起来了解下。

  • 06 2019-08
    分布式爬虫加上http代理高效采集

    分布式爬虫加上http代理高效采集,这数据的采集肯定是要有效率的,相对于单个网络爬虫而言,分布式爬虫和http代理是提高效率的工具,http代理可以使用机灵代理。那么分布式网络爬虫怎么用

  • 15 2021-01
    HTTP代理IP​该怎么选才好

    HTTP代理IP可以换我们的IP,解决一些因为IP带来的困扰。但是随着需求增大,代理IP使用者增加,很多用户如果没选对,会影响使用。那么,HTTP代理IP该怎么选?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部