您的位置:首页 > 新闻资讯 >文章内容
java爬虫是怎么使用代理采集数据的
来源:互联网 作者:admin 时间:2019-03-01 15:36:09

  每当我们要爬数据之前,都需要准备好代理,不然都无法很好的完成任务,毕竟现在技术的进步,各个网站都自己的反爬虫机制,总得花点时间,花点成本才能突破这些限制的。今天跟大家去看看java爬虫是怎么使用代理采集数据的


  设置代理(Proxy)可以有两种方式:


  1.通过java.net.Proxy类


  这种方式是实例化一个Proxy类提供代理服务器的信息,如端口和地址。


  Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(host, port));


  URLConnection conn = url.openConnection(proxy);


  使用代理的方式是在打开Http连接的时候同时传递一个Proxy参数。如果需要验证信息的话我们可以添加一个Http头参数来实现。


java爬虫是怎么使用代理采集数据的


  其中的Base64.encode(user:password)是指把用户名和密码用冒号连接起来之后使用Base64编码后的值作为值的一部分。


  通过这种方式只影响特定的Http连接,但是需要对代码进行修改。这种方式下是否可以使用Authenticator还未做验证。


  2.通过设置系统属性的方式


  可以使用其中的http.proxyHost,http.proxyPort这两个属性,分别设置代理服务器地址和代理端口。


java爬虫是怎么使用代理采集数据的


  替换上面的代理服务器地址或IP地址,以及相应的端口为真实端口,Http连接就可以工作了。需要注意的是如果你设置了这些属性,那么所有的Http请求都会通过代理服务器。


  这些属性是JVM级别的,设置了以后对所有的同类请求都有效。


  如果你的代理服务器不需要验证,那到此就结束了。但一般都是需要验证的。但是你要是看了上面Java支持的属性列表,你就会发现那里面并没有期望中的


  http.proxyUserName=username


  http.proxyPassword=password


  这两个属性。 这时就需要java.net.Authenticator类来完成一般的Http验证。


  但是java.net.Authenticator这个类却是个抽象类,我们要使用还需要实例化一下子自己的类。如下


java爬虫是怎么使用代理采集数据的


java爬虫是怎么使用代理采集数据的


  我们需要覆盖java.net.Authenticator类的getPasswordAuthentication()方法,并返回一个PasswordAuthentication实例。要使他起作用,还需要设置


  Authenticator.setDefault(new BasicAuthenticator(userName, password));


  这样就提供了基于Http Basic的验证,接着就可以顺畅的使用需要验证的代理了。


  以上就是关于java爬虫是怎么使用代理采集数据的方法,仅供参考。对于代理的使用,大家可以选择代理精灵,这是目前市场上非常不错的代理IP供应商,IP高质量,高匿名。


相关文章内容简介
推荐阅读
  • 12 2019-09
    代理IP教你爬虫实现前端页面渲染

    之前网站基本都是用后端渲染的,而随着技术的不断更新进步,像AJAX技术的普及等,开始用前端渲染的页面开始变多了。下面机灵代理IP为大家讲讲有关前端渲染的操作。

  • 01 2019-06
    代理IP能让爬虫早点完成任务

    代理IP能让爬虫早点完成任务,这是为什么大部分的爬虫都会使用代理IP的原因,就是加快速度!

  • 27 2019-05
    代理服务器加速效果怎样?

    代理服务器加速效果怎样?代理服务器的加速,有没有使用过呢?其效果如何呢?

  • 29 2019-03
    案例分享:Python爬虫爬取热门歌单

    Python代码可以做很多的事情,用途比较广泛,比如想知道最近热门的歌单,这也是可以做到的。而且非常简单,零基础都能实现,15行代码便能搞定了。

  • 27 2019-09
    代理IP分享如何搭建搭建负载集群(下)

    经过前面的长长铺垫,我们终于进入到Linux+NetCore+Nginx搭建负载集群的重头戏了。前方知识点比较多,代理IP建议细细查看,这样才是学习知识的正确姿势。相关阅读:如何搭建搭建负载集群(上)

  • 02 2020-04
    代理ip可以伪装ip吗

    我们在使用网络的时候,想隐藏IP,最好用的方式就是代理IP了,用了代理IP后有隐藏IP地址的功能,可以伪装IP。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部