您的位置:首页 > 新闻资讯 >文章内容
用Python爬取IP代理使用
来源:互联网 作者:admin 时间:2019-04-29 11:04:40

  用Python爬取IP代理使用,这是很多初学爬虫的人员经常的做法,因为不需要花钱,也可以从实践中学到知识,还可以用于爬取项目,一举三得,故一般初学者都是这个套路的。下面介绍下用Python爬取IP代理使用的一些方法:


  这个是获取ip代理的文件,我将它们模块化,分为三个函数


用Python爬取IP代理使用

用Python爬取IP代理使用

用Python爬取IP代理使用



  一、getIP(url_target):主要函数 传入参数是:验证IP代理可用性的网址,推荐ipchina


  获取IP代理,找一个提供免费IP代理的网站,但是里面的IP不是全都能用,而且结合你的实际地理位置、网络情况、访问的目标服务器等情况,能用的大概不到20%,至少我的情况是这样。


  访问提供免费IP代理的网站使用正常方式,返回的网页内容通过正则查询获得需要的IP和对应端口,代码如下:


用Python爬取IP代理使用


  关于如何构造正则表达式,可以参考其他的文章:


  获取的IP保存在findIP中,对应的端口在findPORT中,两者按索引对应,获取一页IP正常数量为100.


  接下来进行IP和端口拼接


  最后进行可用性检查


  二、check_one(url_check,i):线程函数


  本次访问url_check还是使用正常方式访问,当访问网页有返回时,则说明本IP代理可用,则记录下当前索引值,用于后面将所有可用IP取出。


  三、mul_thread_check(url_mul_check):多线程生成


  本函数开启多线程检查IP代理可用性,每个IP开启一个线程进行检查。


  本工程直接调用getIP(),并传入用于检查可用性的网址,即可返回一个列表,里面是经可用性检查的ip列表,格式为


  ['ip1:port1','ip2:port2',....]


  以上介绍了用Python爬取IP代理使用的方法,仅供参考的。如果觉得抓取过于麻烦,可以直接使用付费IP代理的,比如机灵代理,质量还不错的,可以去试试的。


相关文章内容简介
推荐阅读
  • 23 2019-03
    哪里可以找到大量的优质代理IP?

    一个优质代理IP有多重要?或许有人说我就想用免费的,也不是照样能抓取到信息么?那么你敢大规模抓取吗?你敢使用分布式爬虫吗?你敢使用多线程吗?

  • 30 2019-03
    采集旅行路线分分钟的事,就让代理IP配合爬虫行动

    使用代理IP可以做很多的事情,用途广得不得了,如果配合爬虫使用,更是哪里都能去了。那么能不能进行旅行路线的收集分析呢?这当然是可以的了。我们一起去看看.

  • 03 2020-02
    不同的代理ip有什么区别

    代理IP的种类划分有很多,可以按照成本、匿名程度、用途来进行区分。不同的区分又有什么不同呢?

  • 03 2019-12
    机灵代理的IP服务优势

    在百度对代理IP、换IP进行搜索,我们可以看到很多提供代理IP的服务商,但是这么多的服务商当中,看到很多用户推荐机灵代理。今天我们来一起看看代理IP服务商的选择。

  • 12 2019-11
    全面认识HTTP报文语法

    HTTP的报文语法是什么?可以分为多少种类型?下面由机灵代理来给大家全方面介绍HTTP报文的语法知识。

  • 10 2020-11
    选择好的代理IP资源

    代理IP服务商那么多,代理IP包那么多种。很多人想买好的代理IP资源,却不知道如何选择。今天我们就来讨论什么样的代理IP资源是好的代理IP资源。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部