您的位置:首页 > 新闻资讯 >文章内容
java爬虫是怎么使用代理采集数据的
来源:互联网 作者:admin 时间:2019-03-01 15:36:09

  每当我们要爬数据之前,都需要准备好代理,不然都无法很好的完成任务,毕竟现在技术的进步,各个网站都自己的反爬虫机制,总得花点时间,花点成本才能突破这些限制的。今天跟大家去看看java爬虫是怎么使用代理采集数据的


  设置代理(Proxy)可以有两种方式:


  1.通过java.net.Proxy类


  这种方式是实例化一个Proxy类提供代理服务器的信息,如端口和地址。


  Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(host, port));


  URLConnection conn = url.openConnection(proxy);


  使用代理的方式是在打开Http连接的时候同时传递一个Proxy参数。如果需要验证信息的话我们可以添加一个Http头参数来实现。


java爬虫是怎么使用代理采集数据的


  其中的Base64.encode(user:password)是指把用户名和密码用冒号连接起来之后使用Base64编码后的值作为值的一部分。


  通过这种方式只影响特定的Http连接,但是需要对代码进行修改。这种方式下是否可以使用Authenticator还未做验证。


  2.通过设置系统属性的方式


  可以使用其中的http.proxyHost,http.proxyPort这两个属性,分别设置代理服务器地址和代理端口。


java爬虫是怎么使用代理采集数据的


  替换上面的代理服务器地址或IP地址,以及相应的端口为真实端口,Http连接就可以工作了。需要注意的是如果你设置了这些属性,那么所有的Http请求都会通过代理服务器。


  这些属性是JVM级别的,设置了以后对所有的同类请求都有效。


  如果你的代理服务器不需要验证,那到此就结束了。但一般都是需要验证的。但是你要是看了上面Java支持的属性列表,你就会发现那里面并没有期望中的


  http.proxyUserName=username


  http.proxyPassword=password


  这两个属性。 这时就需要java.net.Authenticator类来完成一般的Http验证。


  但是java.net.Authenticator这个类却是个抽象类,我们要使用还需要实例化一下子自己的类。如下


java爬虫是怎么使用代理采集数据的


java爬虫是怎么使用代理采集数据的


  我们需要覆盖java.net.Authenticator类的getPasswordAuthentication()方法,并返回一个PasswordAuthentication实例。要使他起作用,还需要设置


  Authenticator.setDefault(new BasicAuthenticator(userName, password));


  这样就提供了基于Http Basic的验证,接着就可以顺畅的使用需要验证的代理了。


  以上就是关于java爬虫是怎么使用代理采集数据的方法,仅供参考。对于代理的使用,大家可以选择代理精灵,这是目前市场上非常不错的代理IP供应商,IP高质量,高匿名。


相关文章内容简介
推荐阅读
  • 01 2019-10
    代理IP的分类有哪几种?

    代理IP有多少种分类?为什么要有不同的代理方式存在?HTTP代理跟Socks代理是大家比较常见的两种,接下来,机灵代理为大家介绍其他代理方式,大家可以对比看看有什么不同。

  • 12 2019-06
    选代理要用动态的吗?

    选代理要用动态的吗?代理ip也可以使用静态的或者动态的,如果经常要换ip,是不是使用动态ip会比较好呢?

  • 21 2019-05
    同IP地址发帖子被封怎么办?

    同IP地址发帖子被封怎么办?如今越来越多的人开始接触新媒体,因此许多公司和个人开始使用他们的新媒体来发展自己的业务。这一系列的产品推广,推广和产品营销的运作手段,通过使用现

  • 26 2019-08
    用代理IP进行创业前准备工作

    教育行业可以说是风口行业,现在的家长对于孩子的栽培非常愿意花时间跟精力去投入,加上国家开放二胎政策,在未来还长一段时间,教育行业都会是非常火热。那么创业者如果想要进军这个

  • 29 2019-07
    不知道怎么选代理IP看这里

    不知道怎么选代理IP看这里,下面给大家分析下代理IP的一些参数,教大家怎么选靠谱的代理IP!

  • 18 2019-01
    python爬虫为什么一定要用代理

    如今大数据时代,python爬虫遍地走,但python爬虫也是有天敌的,那就是反爬虫,它限制了python爬虫。并且随着网络爬虫的日渐壮大,反爬虫也在不断进化,对于网站的反爬虫,又该如何突破呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部