您的位置:首页 > 新闻资讯 >文章内容
不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程
来源:互联网 作者:admin 时间:2019-03-20 17:54:53

  有可能是因为使用了低质量的代理IP,可能是你的IP进了该站的黑名单,某一段时间内不能访问该站的资源。那么该怎么解决这个问题?比较有效的方式是使用代理ip,而如果有一个自己的代理ip池,效果会好很多。


  因此,制作一个代理IP池是很有必要的,但是不知道怎么制作代理ip池。本文介绍下关于代理IP池的搭建。


  西刺网是一个免费代理ip资源比较多的站,本文就从西刺网获取ip,制作代理ip池。


  有俩千多页代理ip,当然这是按时间排序的,我估计越到后面的ip可能就没啥用了.


  分析该页面的源码


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  很简单的发现,所有的代理ip信息都在table下,每一个tr都是一条ip的信息。那这就比较简单了,分分钟来一个漂亮的正则来将需要的信息匹配出来(这里我匹配的有ip地址,端口,类型,服务器地址,是否匿名)


  编写xc.py


  正则表达式(个人觉得这应该是本程序最精华的部分)的使用如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  \d匹配数字,\d+匹配多个数字 (\d+) 这里匹配端口号


  [A-Z]匹配大写字母,[A-Z]+匹配多个大写字母 这里匹配的是类型


  .匹配单个任意字符,*匹配前面字符0到多次,?匹配前面0到一次,(.*?)匹配任意字符


  如果你对正则表达式不是很熟悉,你可以在这里(传送门2 菜鸟教程)进行这方面的学习。


  下面编写请求头


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  第一个self.headers是下载页面的请求头,self.proxyHeaders是后面验证ip是否可用的请求头。


  下面是下载页面和正则匹配的函数


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  根据上面的代码,就可以将代理ip从西刺站拿下来,接下来检验是否有效。


  requests是一个非常有用的库,这里也将使用它进行校验


  self.req.get("http://www.baidu.com",proxies={"{}".format(i[2]):"{}://{}:{}".format(i[2],i[0],i[1])},timeout=5)


  i 是 ('110.73.48.247', '8123', 'HTTP') 类数据


  为了保证校验的可靠性,我把每次校验设置超时5s。


  如此就能拿到新鲜免费的代理ip了,为了使得ip能多次使用,我将其存入mysql数据库中。


  写入代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  读取代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  最后来看下使用效果:


  编写demo.py 再导入xc.py 中的xiciSpider类


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  首先你需要从西刺网将ip爬取到自己数据库中,然后再从数据库中提取有用的ip。


  这是否觉得很麻烦呢?但是不使用代理IP池又不行,有没有什么好的方法?可以使用代理精灵!直接就能提取大量的IP资源,使用方便。


相关文章内容简介
推荐阅读
  • 19 2019-03
    代理模式的通俗解释:中介帮助房子主人卖房子

    代理服务器一般都是代理网络用户去取得网络信息,可以说是网络信息的中转站,我们很多时间都使用到代理服务器,只是我们不知道罢了。通俗来说,代理服务器就相当于一个中间人,也可以

  • 26 2019-04
    API接口调用爬虫代理流程

    API接口调用爬虫代理流程分享,大家可以参考下的。现在采集数据都是需要使用到爬虫代理的,不然对方会拦截住你,对方的服务器只需要知道你的IP地址便可以知道你的一些访问行为,如果你

  • 20 2019-02
    IPV6现在发展到什么阶段了?如何升级到IPV6?

    ​自1981年Jon Postel 在RFC791中定义了IPv4到现在,IPv4在IP领域称王已有30余年,并一度成为IP的代名词,但是IPv4面临枯竭的危机,已经失去了实用价值。

  • 23 2019-08
    动态IP代理商 要怎么选择

    面对海量的动态IP代理商,我们除了从价格上进行比较之外,有什么指标能够帮助我们很好的选到合适的IP代理呢?下面就由机灵代理为大家分享挑选代理商的一些方法,以供参考。

  • 28 2019-01
    爬虫伪装成浏览器后可以更换IP,突破网站的反爬虫机制

    面对网站的反爬虫机制,爬虫应该怎么办呢?若是爬虫稍微加快速度爬取数据,很快就会被网站的反爬虫机制检测到异常,并进行封IP处理,这样爬虫就无法完成任务了。那么爬虫应该如何伪装

  • 08 2019-04
    爬虫都要使用动态代理ip吗?Java分布式爬虫Nutch呢?

    开始学爬虫之时,最先接触的是简单的爬虫,随着学习的深入,慢慢开始接触分布式爬虫。我们使用分布式爬虫主要是为了加大数据的爬取,也就是大批量URL管理。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部