您的位置:首页 > 新闻资讯 >文章内容
爬虫代理有哪些分类
来源:本站 作者:admin 时间:2019-02-27 16:57:48

对于爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能遇到同一个IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或者直接封IP,这样会给爬取带来极大的不便。使用代理隐藏真实的IP,让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。 


代理分类时,既可以根据协议区分,也可以根据其匿名程度区分。 


一、根据代理的协议,代理可以分为如下类别


1.FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。 


2.HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。 


3.SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。 


4.RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。 


5.Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。 


6.POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。 7.SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。


二、根据代理的匿名程度,代理可以分为如下类别


1.高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客 户端在访问,而记录的IP是代理服务器的IP。 


2.普通匿名代理:会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTP_VIA和HTTP_X_FORWARDED_FOR。 


3.透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用,最常见的例子是内网中的硬件防火墙。


4.间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器。


相关文章内容简介
推荐阅读
  • 20 2019-03
    HTTP代理访问变慢的原因以及对策

    上文讲到HTTP代理动态转发,使用的优势比较多,但是也有缺点的,这些缺点的影响大不大?相信大家都非常关系这个问题的,下面我们去看看HTTP代理访问变慢的原因以及对策。

  • 27 2019-05
    代理服务器是否能防止黑客攻击

    代理服务器是否能防止黑客攻击,关于安全问题,估计大家都比较的关心。现在正是网络的世界,离不开网络,依靠网络,那么如何保障安全是非常的重要的,那么代理服务器是否能防止黑客攻

  • 16 2019-04
    PLPY4月榜单官宣,Python躺赢,实力甩下Java和C

    Python被称为胶水语言,但是与人工智能、大数据捆绑在一起的Python,越来越炽手可热了。PLPY4月榜单官宣,Python躺赢,再度“夺”冠,实力甩下Java和C!

  • 10 2019-04
    代理IP从何而来?机灵代理自建服务器

    代理IP从何而来?刚自学爬虫的时候没有代理IP就去西刺、快代理之类有免费代理的网站去爬,还是有个别代理能用。当然,如果你有更好的代理接口也可以自己接入。

  • 21 2019-06
    代理服务器对新媒体有影响吗?

    代理服务器对新媒体有影响吗?如今越来越多的人开始使用微博、论坛、小红书等,因此很多公司和个人都开始借助这些平台来发展自己的业务。这种新型业务被人们称作新媒体运营。随着新媒

  • 09 2019-07
    专业的http代理用途有什么不同

    专业的http代理用途有什么不同?如果你对http代理不太了解,可以跟着小编来看看专业的http代理用途,我们平常是如何使用http代理的。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961