您的位置:首页 > 新闻资讯 >文章内容
java爬虫是怎么使用代理采集数据的
来源:互联网 作者:admin 时间:2019-03-01 15:36:09

  每当我们要爬数据之前,都需要准备好代理,不然都无法很好的完成任务,毕竟现在技术的进步,各个网站都自己的反爬虫机制,总得花点时间,花点成本才能突破这些限制的。今天跟大家去看看java爬虫是怎么使用代理采集数据的


  设置代理(Proxy)可以有两种方式:


  1.通过java.net.Proxy类


  这种方式是实例化一个Proxy类提供代理服务器的信息,如端口和地址。


  Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(host, port));


  URLConnection conn = url.openConnection(proxy);


  使用代理的方式是在打开Http连接的时候同时传递一个Proxy参数。如果需要验证信息的话我们可以添加一个Http头参数来实现。


java爬虫是怎么使用代理采集数据的


  其中的Base64.encode(user:password)是指把用户名和密码用冒号连接起来之后使用Base64编码后的值作为值的一部分。


  通过这种方式只影响特定的Http连接,但是需要对代码进行修改。这种方式下是否可以使用Authenticator还未做验证。


  2.通过设置系统属性的方式


  可以使用其中的http.proxyHost,http.proxyPort这两个属性,分别设置代理服务器地址和代理端口。


java爬虫是怎么使用代理采集数据的


  替换上面的代理服务器地址或IP地址,以及相应的端口为真实端口,Http连接就可以工作了。需要注意的是如果你设置了这些属性,那么所有的Http请求都会通过代理服务器。


  这些属性是JVM级别的,设置了以后对所有的同类请求都有效。


  如果你的代理服务器不需要验证,那到此就结束了。但一般都是需要验证的。但是你要是看了上面Java支持的属性列表,你就会发现那里面并没有期望中的


  http.proxyUserName=username


  http.proxyPassword=password


  这两个属性。 这时就需要java.net.Authenticator类来完成一般的Http验证。


  但是java.net.Authenticator这个类却是个抽象类,我们要使用还需要实例化一下子自己的类。如下


java爬虫是怎么使用代理采集数据的


java爬虫是怎么使用代理采集数据的


  我们需要覆盖java.net.Authenticator类的getPasswordAuthentication()方法,并返回一个PasswordAuthentication实例。要使他起作用,还需要设置


  Authenticator.setDefault(new BasicAuthenticator(userName, password));


  这样就提供了基于Http Basic的验证,接着就可以顺畅的使用需要验证的代理了。


  以上就是关于java爬虫是怎么使用代理采集数据的方法,仅供参考。对于代理的使用,大家可以选择代理精灵,这是目前市场上非常不错的代理IP供应商,IP高质量,高匿名。


相关文章内容简介
推荐阅读
  • 21 2019-02
    代理IP分类有哪些?用那种代理更安全

    ​用户通常通过代理来突破限制,如局域网对上网用户的端口、目的网站、协议、游戏、即时通讯软件等的限制,网站对于IP的访问频率、访问次数的限制等

  • 26 2019-03
    干货代理的使用方式

    现在代理服务器承载着各大网站上的信息转接功能,而干货代理服务器具体如何使用,还是需要大家提前获取有用信息的,只有这样才能够保证自己在网站运营过程中高效平稳,如果自己一时差

  • 13 2019-06
    代理ip按照什么分类?

    代理ip按照什么分类?代理ip的分类跟我们有什么关系?这当然是有关系的,如果不清楚,选择了不多的代理ip类型使用,就达不到需要的效果,例如平台是https协议的,而我们使用http代理ip去突

  • 12 2019-08
    自媒体刷量需要爬虫程序和代理ip资源

    自媒体刷量需要爬虫程序和代理ip资源!自媒体账号推荐量是一个比较麻烦的事情,平台都是依据智能推荐机制进行内容推送,如果说内容推荐量不高,那一般阅读量都不会太高。于是,有些人

  • 19 2019-09
    代理IP汇总29条Python操作要点

    我们都知道,Python能够被用于在很多不同方面,像是数据分析、应用开发、游戏、机器人等等。而且随着现在互联网发展越来越快,互联网人才也会受到重视,所以吸引了很多人去学习编程语言

  • 12 2019-09
    用代理IP爬虫前 你必须懂的33个知识点(四)

    当我们在说爬虫的时候,其实我们在说什么?爬虫爬取的到底是什么内容?如果你想要了解爬虫以及大数据的相关知识,那么机灵代理搜集的这33个知识点就非常适合了。在用代理IP开展爬虫,挖掘

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部