您的位置:首页 > 新闻资讯 >文章内容
不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程
来源:互联网 作者:admin 时间:2019-03-20 17:54:53

  有可能是因为使用了低质量的代理IP,可能是你的IP进了该站的黑名单,某一段时间内不能访问该站的资源。那么该怎么解决这个问题?比较有效的方式是使用代理ip,而如果有一个自己的代理ip池,效果会好很多。


  因此,制作一个代理IP池是很有必要的,但是不知道怎么制作代理ip池。本文介绍下关于代理IP池的搭建。


  西刺网是一个免费代理ip资源比较多的站,本文就从西刺网获取ip,制作代理ip池。


  有俩千多页代理ip,当然这是按时间排序的,我估计越到后面的ip可能就没啥用了.


  分析该页面的源码


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  很简单的发现,所有的代理ip信息都在table下,每一个tr都是一条ip的信息。那这就比较简单了,分分钟来一个漂亮的正则来将需要的信息匹配出来(这里我匹配的有ip地址,端口,类型,服务器地址,是否匿名)


  编写xc.py


  正则表达式(个人觉得这应该是本程序最精华的部分)的使用如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  \d匹配数字,\d+匹配多个数字 (\d+) 这里匹配端口号


  [A-Z]匹配大写字母,[A-Z]+匹配多个大写字母 这里匹配的是类型


  .匹配单个任意字符,*匹配前面字符0到多次,?匹配前面0到一次,(.*?)匹配任意字符


  如果你对正则表达式不是很熟悉,你可以在这里(传送门2 菜鸟教程)进行这方面的学习。


  下面编写请求头


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  第一个self.headers是下载页面的请求头,self.proxyHeaders是后面验证ip是否可用的请求头。


  下面是下载页面和正则匹配的函数


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  根据上面的代码,就可以将代理ip从西刺站拿下来,接下来检验是否有效。


  requests是一个非常有用的库,这里也将使用它进行校验


  self.req.get("http://www.baidu.com",proxies={"{}".format(i[2]):"{}://{}:{}".format(i[2],i[0],i[1])},timeout=5)


  i 是 ('110.73.48.247', '8123', 'HTTP') 类数据


  为了保证校验的可靠性,我把每次校验设置超时5s。


  如此就能拿到新鲜免费的代理ip了,为了使得ip能多次使用,我将其存入mysql数据库中。


  写入代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  读取代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  最后来看下使用效果:


  编写demo.py 再导入xc.py 中的xiciSpider类


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  首先你需要从西刺网将ip爬取到自己数据库中,然后再从数据库中提取有用的ip。


  这是否觉得很麻烦呢?但是不使用代理IP池又不行,有没有什么好的方法?可以使用代理精灵!直接就能提取大量的IP资源,使用方便。


相关文章内容简介
推荐阅读
  • 29 2019-04
    网页IP被封找代理IP能行吗?

    网页IP被封找代理IP能行吗?遇到被封,大家第一时间是怎么想的?如何解决呢?现在很多站长都会有抓取数据的需求,因此网络爬虫在一定程度上越来越火爆,其实爬虫的基本功能很简单,就

  • 24 2019-06
    问答推广用代理IP不容易被封

    问答推广用代理IP不容易被封,大家可以尝试下这个做发法,效果相当的不错。目前来讲,问答推广依然很重要,问题推广就是以用户的角度去提问,这些问题内容也是用户想要知道的,信赖感

  • 19 2019-06
    使用IP代理没有效果怎么回事

    使用IP代理没有效果怎么回事?IP代理虽然是可以突破IP限制的,对于经常要换IP的项目都是可以使用的,不过有些人觉得使用IP代理效果不错,但也有人觉得没有效果,这是怎么回事呢?

  • 10 2019-01
    爬虫用代理IP突破限制就能高枕无忧了吗

    代理IP可以说是爬虫的好帮手,不管是什么的项目,都需要用到代理IP进行访问的突破,否则爬虫无法进行大量的采集工作。爬虫用代理IP突破限制就能高枕无忧了吗?

  • 21 2019-03
    爬虫用Requests设置代理IP的方法

    使用python中的包请求网站时,需要设置代理IP使用,否则无法正常获取到信息,那么爬虫用Requests设置代理IP的方法是怎样的?

  • 29 2019-05
    换IP刷点击量的软件

    换IP刷点击量的软件有效果吗?做网站优化的人都知道,网站的实际内容是你网络优化策略的一个重要的因素,如果你想你的网站能在搜索结果中排得靠前,就必须在你的网站中有实际的内容,

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961