您的位置:首页 > 新闻资讯 >文章内容
用Python爬取IP代理使用
来源:互联网 作者:admin 时间:2019-04-29 11:04:40

  用Python爬取IP代理使用,这是很多初学爬虫的人员经常的做法,因为不需要花钱,也可以从实践中学到知识,还可以用于爬取项目,一举三得,故一般初学者都是这个套路的。下面介绍下用Python爬取IP代理使用的一些方法:


  这个是获取ip代理的文件,我将它们模块化,分为三个函数


用Python爬取IP代理使用

用Python爬取IP代理使用

用Python爬取IP代理使用



  一、getIP(url_target):主要函数 传入参数是:验证IP代理可用性的网址,推荐ipchina


  获取IP代理,找一个提供免费IP代理的网站,但是里面的IP不是全都能用,而且结合你的实际地理位置、网络情况、访问的目标服务器等情况,能用的大概不到20%,至少我的情况是这样。


  访问提供免费IP代理的网站使用正常方式,返回的网页内容通过正则查询获得需要的IP和对应端口,代码如下:


用Python爬取IP代理使用


  关于如何构造正则表达式,可以参考其他的文章:


  获取的IP保存在findIP中,对应的端口在findPORT中,两者按索引对应,获取一页IP正常数量为100.


  接下来进行IP和端口拼接


  最后进行可用性检查


  二、check_one(url_check,i):线程函数


  本次访问url_check还是使用正常方式访问,当访问网页有返回时,则说明本IP代理可用,则记录下当前索引值,用于后面将所有可用IP取出。


  三、mul_thread_check(url_mul_check):多线程生成


  本函数开启多线程检查IP代理可用性,每个IP开启一个线程进行检查。


  本工程直接调用getIP(),并传入用于检查可用性的网址,即可返回一个列表,里面是经可用性检查的ip列表,格式为


  ['ip1:port1','ip2:port2',....]


  以上介绍了用Python爬取IP代理使用的方法,仅供参考的。如果觉得抓取过于麻烦,可以直接使用付费IP代理的,比如机灵代理,质量还不错的,可以去试试的。


相关文章内容简介
推荐阅读
  • 30 2019-07
    爬虫可以尝试换IP大规模访问

    爬虫可以尝试换IP大规模访问,因为很多时候网站都设置了IP限制,这是为了防止爬虫某段时间大规模访问,那么爬虫怎么办呢?如果避免对方封IP的这种情况。在自己进行访问时最好可以尝试换

  • 18 2019-06
    免费代理服务器为什么少人用

    免费代理服务器为什么少人用,现在很多人还是愿意租个代理服务器使用的,免费的不好吗?何必要浪费钱呢?

  • 18 2019-06
    http代理可以提升公众号数据

    http代理可以提升公众号数据,是自媒体人员的辅助工具,具体效果怎么样呢?

  • 13 2019-04
    爬虫又是怎么突破IP限制,突破反爬的呢?代理IP管用吗?

    网站有爬虫,自然也是有反爬的,否则爬虫岂不是翻天了?网站该如何“反爬”?爬虫又是怎么突破IP限制,突破反爬的呢?代理IP管用吗?

  • 14 2019-01
    常见几个突破反爬虫的技巧

    写一个爬虫并不难,特别是使用python语言编写更是可以利用各种的库,相对其他语言更加容易些,即使如此,爬虫不能很高效的完成任务的,这是因为网站都有设置了反爬虫,如果不能突破这些

  • 04 2019-06
    企业选择http代理的原因

    企业选择http代理的原因,都有哪些?目前爬虫大和大数据采集、分析等领域,在很多时候都需要用到ip,以此达到切换ip的目的。切换ip有很多方法,不过目前越来越多的企业级用户选择使用http

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961