您的位置:首页 > 新闻资讯 >文章内容
不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程
来源:互联网 作者:admin 时间:2019-03-20 17:54:53

  有可能是因为使用了低质量的代理IP,可能是你的IP进了该站的黑名单,某一段时间内不能访问该站的资源。那么该怎么解决这个问题?比较有效的方式是使用代理ip,而如果有一个自己的代理ip池,效果会好很多。


  因此,制作一个代理IP池是很有必要的,但是不知道怎么制作代理ip池。本文介绍下关于代理IP池的搭建。


  西刺网是一个免费代理ip资源比较多的站,本文就从西刺网获取ip,制作代理ip池。


  有俩千多页代理ip,当然这是按时间排序的,我估计越到后面的ip可能就没啥用了.


  分析该页面的源码


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  很简单的发现,所有的代理ip信息都在table下,每一个tr都是一条ip的信息。那这就比较简单了,分分钟来一个漂亮的正则来将需要的信息匹配出来(这里我匹配的有ip地址,端口,类型,服务器地址,是否匿名)


  编写xc.py


  正则表达式(个人觉得这应该是本程序最精华的部分)的使用如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  \d匹配数字,\d+匹配多个数字 (\d+) 这里匹配端口号


  [A-Z]匹配大写字母,[A-Z]+匹配多个大写字母 这里匹配的是类型


  .匹配单个任意字符,*匹配前面字符0到多次,?匹配前面0到一次,(.*?)匹配任意字符


  如果你对正则表达式不是很熟悉,你可以在这里(传送门2 菜鸟教程)进行这方面的学习。


  下面编写请求头


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  第一个self.headers是下载页面的请求头,self.proxyHeaders是后面验证ip是否可用的请求头。


  下面是下载页面和正则匹配的函数


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  根据上面的代码,就可以将代理ip从西刺站拿下来,接下来检验是否有效。


  requests是一个非常有用的库,这里也将使用它进行校验


  self.req.get("http://www.baidu.com",proxies={"{}".format(i[2]):"{}://{}:{}".format(i[2],i[0],i[1])},timeout=5)


  i 是 ('110.73.48.247', '8123', 'HTTP') 类数据


  为了保证校验的可靠性,我把每次校验设置超时5s。


  如此就能拿到新鲜免费的代理ip了,为了使得ip能多次使用,我将其存入mysql数据库中。


  写入代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  读取代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  最后来看下使用效果:


  编写demo.py 再导入xc.py 中的xiciSpider类


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  首先你需要从西刺网将ip爬取到自己数据库中,然后再从数据库中提取有用的ip。


  这是否觉得很麻烦呢?但是不使用代理IP池又不行,有没有什么好的方法?可以使用代理精灵!直接就能提取大量的IP资源,使用方便。


相关文章内容简介
推荐阅读
  • 31 2019-07
    用代理IP去采集数据要看匿名度

    用代理IP去采集数据要看匿名度,这是为什么呢?很多人由于网络限制问题,选择了代理但还是被封帐号,甚至自己的真实IP也被封。这是为什么呢?用代理被封要看匿名度,其实,用了代理后

  • 29 2019-05
    换IP刷点击量的软件

    换IP刷点击量的软件有效果吗?做网站优化的人都知道,网站的实际内容是你网络优化策略的一个重要的因素,如果你想你的网站能在搜索结果中排得靠前,就必须在你的网站中有实际的内容,

  • 30 2019-05
    代理IP什么时候检测有效性好

    代理IP什么时候检测有效性好?不是所有的代理IP中的IP都是有效的资源,尤其是免费的,百分之九十以上都是不可用的。因此我们需要检测代理IP的有效性,看看这些IP是否可用。

  • 20 2019-06
    更换ip地址找http代理

    更换ip地址找http代理,这种更换IP的方法是最快的,而且效果也好的,能换的IP也多,具体能换哪里的IP地址,要看商家的规模,像机灵代理的话,可以更换到全国200+城市的IP线路,是相当的不错

  • 17 2019-01
    爬虫使用的代理IP池怎么搭建

    人工获取大量数据耗时太久了,所以很多企业或者个人都是使用各种工具来获取批量获取数据的,比如使用网络爬虫来爬取数据,并需要代理IP池来突破限制才能顺利获取到数据。那么这爬虫使

  • 11 2019-07
    要用最新代理服务器找谁好?

    要用最新代理服务器找谁好?很多网友都使用过代理的,代理,通俗一点来说就是代为处理的意思。那么代理服务器是指什么呢?下面小编来为大家延伸一下最新代理服务器的原理和用途。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部