您的位置:首页 > 新闻资讯 >文章内容
java爬虫是怎么使用代理采集数据的
来源:互联网 作者:admin 时间:2019-03-01 15:36:09

  每当我们要爬数据之前,都需要准备好代理,不然都无法很好的完成任务,毕竟现在技术的进步,各个网站都自己的反爬虫机制,总得花点时间,花点成本才能突破这些限制的。今天跟大家去看看java爬虫是怎么使用代理采集数据的


  设置代理(Proxy)可以有两种方式:


  1.通过java.net.Proxy类


  这种方式是实例化一个Proxy类提供代理服务器的信息,如端口和地址。


  Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(host, port));


  URLConnection conn = url.openConnection(proxy);


  使用代理的方式是在打开Http连接的时候同时传递一个Proxy参数。如果需要验证信息的话我们可以添加一个Http头参数来实现。


java爬虫是怎么使用代理采集数据的


  其中的Base64.encode(user:password)是指把用户名和密码用冒号连接起来之后使用Base64编码后的值作为值的一部分。


  通过这种方式只影响特定的Http连接,但是需要对代码进行修改。这种方式下是否可以使用Authenticator还未做验证。


  2.通过设置系统属性的方式


  可以使用其中的http.proxyHost,http.proxyPort这两个属性,分别设置代理服务器地址和代理端口。


java爬虫是怎么使用代理采集数据的


  替换上面的代理服务器地址或IP地址,以及相应的端口为真实端口,Http连接就可以工作了。需要注意的是如果你设置了这些属性,那么所有的Http请求都会通过代理服务器。


  这些属性是JVM级别的,设置了以后对所有的同类请求都有效。


  如果你的代理服务器不需要验证,那到此就结束了。但一般都是需要验证的。但是你要是看了上面Java支持的属性列表,你就会发现那里面并没有期望中的


  http.proxyUserName=username


  http.proxyPassword=password


  这两个属性。 这时就需要java.net.Authenticator类来完成一般的Http验证。


  但是java.net.Authenticator这个类却是个抽象类,我们要使用还需要实例化一下子自己的类。如下


java爬虫是怎么使用代理采集数据的


java爬虫是怎么使用代理采集数据的


  我们需要覆盖java.net.Authenticator类的getPasswordAuthentication()方法,并返回一个PasswordAuthentication实例。要使他起作用,还需要设置


  Authenticator.setDefault(new BasicAuthenticator(userName, password));


  这样就提供了基于Http Basic的验证,接着就可以顺畅的使用需要验证的代理了。


  以上就是关于java爬虫是怎么使用代理采集数据的方法,仅供参考。对于代理的使用,大家可以选择代理精灵,这是目前市场上非常不错的代理IP供应商,IP高质量,高匿名。


相关文章内容简介
推荐阅读
  • 09 2019-05
    找个支持http/https/Socks5代理使用

    找个支持http/https/Socks5代理使用,现在代理ip越来越被人们重视,这是因为人们发现代理ip越来越有用处,而且我们在上网的时候,很多时候都要用到代理的。

  • 09 2019-01
    国内可用的http代理服务器

    代理服务器本来只是介于浏览器和Web服务器之间的一台服务器,还可以说是一个中间商,主要的功能就是代理网络用户去获得网络信息。

  • 04 2019-06
    Socks代理比其他代理快吗

    Socks代理比其他代理快吗?啥是socks5代理,可能还有很多人都不知道的,来我们简单说说。socks5代理采用socks协议的代理服务器就是SOCKS服务器,是一种通用的代理服务器。

  • 05 2019-07
    用代理ip上哪里找去?

    用代理ip上哪里找去?现在,代理ip的使用越来越广泛了,如果想要使用代理ip上哪里找去呢?有免费的也有付费的,看你喜欢哪个吧。

  • 14 2019-06
    QQ不想暴露IP可以用代理上网

    QQ不想暴露IP可以用代理上网,其实QQ软件本身是支持代理的设置,可以设置http代理和Socks5代理的。这方便了大家,假如不想被别人知道你的IP地址,也不想被被人知道你的所在地,那么就可以设

  • 27 2019-03
    服务器代理IP哪家强?

    对于很多爬虫来说,他们目前只是一个为了不断应付越来越高级牌爬虫代理的目的而成就了现在无数代理IP的行业。尤其是现在这个行业中各式各样的爬虫服务越来越多,想要找到一家可靠的服

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961