您的位置:首页 > 新闻资讯 >文章内容
不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程
来源:互联网 作者:admin 时间:2019-03-20 17:54:53

  有可能是因为使用了低质量的代理IP,可能是你的IP进了该站的黑名单,某一段时间内不能访问该站的资源。那么该怎么解决这个问题?比较有效的方式是使用代理ip,而如果有一个自己的代理ip池,效果会好很多。


  因此,制作一个代理IP池是很有必要的,但是不知道怎么制作代理ip池。本文介绍下关于代理IP池的搭建。


  西刺网是一个免费代理ip资源比较多的站,本文就从西刺网获取ip,制作代理ip池。


  有俩千多页代理ip,当然这是按时间排序的,我估计越到后面的ip可能就没啥用了.


  分析该页面的源码


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  很简单的发现,所有的代理ip信息都在table下,每一个tr都是一条ip的信息。那这就比较简单了,分分钟来一个漂亮的正则来将需要的信息匹配出来(这里我匹配的有ip地址,端口,类型,服务器地址,是否匿名)


  编写xc.py


  正则表达式(个人觉得这应该是本程序最精华的部分)的使用如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  \d匹配数字,\d+匹配多个数字 (\d+) 这里匹配端口号


  [A-Z]匹配大写字母,[A-Z]+匹配多个大写字母 这里匹配的是类型


  .匹配单个任意字符,*匹配前面字符0到多次,?匹配前面0到一次,(.*?)匹配任意字符


  如果你对正则表达式不是很熟悉,你可以在这里(传送门2 菜鸟教程)进行这方面的学习。


  下面编写请求头


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  第一个self.headers是下载页面的请求头,self.proxyHeaders是后面验证ip是否可用的请求头。


  下面是下载页面和正则匹配的函数


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  根据上面的代码,就可以将代理ip从西刺站拿下来,接下来检验是否有效。


  requests是一个非常有用的库,这里也将使用它进行校验


  self.req.get("http://www.baidu.com",proxies={"{}".format(i[2]):"{}://{}:{}".format(i[2],i[0],i[1])},timeout=5)


  i 是 ('110.73.48.247', '8123', 'HTTP') 类数据


  为了保证校验的可靠性,我把每次校验设置超时5s。


  如此就能拿到新鲜免费的代理ip了,为了使得ip能多次使用,我将其存入mysql数据库中。


  写入代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  读取代码如下


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  最后来看下使用效果:


  编写demo.py 再导入xc.py 中的xiciSpider类


不知道怎么制作代理ip池?抓取免费IP搭建代理IP池教程


  首先你需要从西刺网将ip爬取到自己数据库中,然后再从数据库中提取有用的ip。


  这是否觉得很麻烦呢?但是不使用代理IP池又不行,有没有什么好的方法?可以使用代理精灵!直接就能提取大量的IP资源,使用方便。


相关文章内容简介
推荐阅读
  • 05 2019-05
    免费的代理IP有用吗?

    免费的代理IP有用吗?就凭“免费”二字,是可以吸引非常多的用户,哪怕这东西没有多大价值甚至毫无价值,但是这免费的代理IP究竟能不能用呢?

  • 26 2019-04
    获取Socks5代理IP的方法

    本文主要是介绍获取Socks5代理IP的方法,如果需要使用Socks5代理IP的伙伴,可以留意下的。相对于HTTP代理,其实Socks5代理使用的情况会少些,可能大家对Socks5代理也不是很熟悉的,下面小编这就

  • 04 2019-09
    Python爬虫怎么减少被封?

    网站反爬虫机制让不少爬虫工作者非常头痛,总是爬虫爬到一半就被封掉,手中能用的IP越来越少,不过这个问题一般用代理IP就能解决。想要爬虫的时候减少被发现的概率,那么你需要做到以

  • 21 2019-02
    Python爬虫的几种数据存储方法

    我们使用Python爬虫获得这些数据之后,是需要进行数据存储的,并不是直接存储就可以了,不同的数据其存储方法也是不一样的。下面小编为大家介绍关于Python爬虫的几种数据存储方法。

  • 13 2020-07
    代理ip软件哪个好呢

    如今代理ip被广泛应用吗,那代理ip软件哪个好呢?本款ip代理软件,是一款服务于通过拨号上网用户和通过路由上网用户,帮助其实现自动更换ip地址的软件。您可能用过很多代理ip软件,您知道

  • 25 2019-05
    爬虫用代理IP爬取微博内容

    爬虫用代理IP爬取微博内容,这需要注意些什么呢?一般做爬虫爬取网站,首选的都是m站,其次是wap站,最后考虑PC站。当然,这不是绝对的,有的时候PC站的信息最全,而你又恰好需要全部的

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部