您的位置:首页 > 新闻资讯 >文章内容
爬虫代理有哪些分类
来源:本站 作者:admin 时间:2019-02-27 16:57:48

对于爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能遇到同一个IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或者直接封IP,这样会给爬取带来极大的不便。使用代理隐藏真实的IP,让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。 


代理分类时,既可以根据协议区分,也可以根据其匿名程度区分。 


一、根据代理的协议,代理可以分为如下类别


1.FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。 


2.HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。 


3.SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。 


4.RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。 


5.Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。 


6.POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。 7.SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。


二、根据代理的匿名程度,代理可以分为如下类别


1.高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客 户端在访问,而记录的IP是代理服务器的IP。 


2.普通匿名代理:会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTP_VIA和HTTP_X_FORWARDED_FOR。 


3.透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用,最常见的例子是内网中的硬件防火墙。


4.间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器。


相关文章内容简介
推荐阅读
  • 19 2019-10
    建议爬虫使用独享代理IP

    开展爬虫工作都需要用到代理IP,免费的代理IP网上有很多可以采集,但是由于质量问题,并不太适合用来高效爬虫。于是大家就要找到靠谱的付费代理。

  • 12 2019-06
    代理服务器的匿名度分三个等级

    代理服务器的匿名度分三个等级,适用于不同的场景,如果我们要使用代理服务器的话,到底是选择什么匿名度的好呢?

  • 16 2019-07
    代理IP常见的几种使用方法

    代理IP常见的几种使用方法,这里给大家介绍下,如果需要切换ip,可以选择下面的几种方法使用的,这样可以更高效率:

  • 02 2019-04
    选择动态IP代理,对比哪些方面容易看到实际效果?

    网站有所发展之后,肯定是不断的完善,如果你还想任意采集,这是不可能的。网站发展越好,用户就越多,虽然服务器配置也跟上,但是如果大量的爬虫过来,服务器也耗不起啊。为此,网站

  • 28 2019-02
    ip代理的主要应用场景,使用IP代理有什么要求?

    网络的兴起,很多工作都需要借助网络的力量完成,但是很多网站都有网络设置,为了完成任务,就需要突破这些限制,比如IP限制。这个限制的应对方法比较简单,就是换IP,那么关键是如何

  • 13 2019-04
    代码分享:验证代理IP的有效性

    找到代理IP时,首先要先去验证下,看看这商家的代理IP质量怎么样,比如机灵代理这类的商家都是提供全国的IP,其中的IP效果也不知道,最好是先验证下.

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961