您的位置:首页 > 新闻资讯 >文章内容
代理IP的重复度验证与格式化
来源:互联网 作者:admin 时间:2019-12-05 10:44:27

  像一些爬虫玩家,他们会将网络上面一些免费提供代理IP的网站进行抓取,将这些免费IP给提取下来使用。那么当我们抓取之后,需要对这些IP进行什么操作呢?首先就是要验证代理IP是否重复以及进行格式化处理了,下面看看是如何进行的:

代理IP的重复度验证与格式化

  验证代理ip(check_ip.py)


  1、文件查重


  写一个简单的函数用于查重,查重思路就是获取txt文件中的每一行元素,组成列表。对列表使用自带的set函数,注意:这种方法会改变列表原来的顺序。函数如下:


  from bs4 import BeautifulSoup


  import requests


  import time


  def check_repeat(path):


  """


  检查文件中每一行的内容是否重复,删除重复内容


  :param path: 文件路径


  :return:


  """


  try:


  # 读取文件


  data_list = []


  with open(path, "r") as fr:


  lines = fr.readlines()


  fr.close()


  for line in lines:


  data_list.append(line)


  new_data_list = list(set(data_list)) # 查重


  file_name = path.split("/")


  print(file_name[-1] + "文件共有 " + str(len(data_list)) + " 条数据")


  print("经过查重,现在共有 " + str(len(new_data_list)) + " 条数据")


  # 保存文件


  with open(path, "w") as f:


  for i in range(len(new_data_list)):


  f.write(new_data_list[i])


  f.close()


  print(file_name[-1] + "文件查重成功")


  except Exception as e:


  print("文件查重失败!!!")


  print(e)


  2、代理IP格式化


  网页获取的ip的格式基本为以下格式:


  5.135.66.232___8554___透明___http___法国___XXXX___XX___7.869 秒___4秒前


  220.230.120.101___8286___高匿___http___韩国___XXXX___XX___4.14 秒___11秒前


  从页面解析出来的代理ip的信息中间都是使用“—”进行隔开,为了方便直接使用,在此需要将上述的的格式转换为以下格式:


  5.135.66.232:8554


  220.230.120.101:8286


  函数如下:


  def ip_format(read_path, save_path):


  """


  将文件中的代理ip进行格式化转换,并进行查重


  :param read_path: 读取待转换的代理ip的文件路径


  :param save_path: 转换完成的代理ip的保存路径


  :return:


  """


  data_list = []


  with open(read_path, "r") as fr:


  lines = fr.readlines()


  fr.close()


  for line in lines:


  new_line = line.split("___")


  ip_format_line = new_line[0].replace(" ", "") + ":" + new_line[1] + "\n"


  data_list.append(ip_format_line)


  with open(save_path, "a") as fs:


  for i in range(len(data_list)):


  fs.write(data_list[i])


  fs.close()


  print("文件保存成功")


  fs.close()


  以上就是机灵代理带来的代理IP的查重以及格式化操作步骤介绍,大家可以按照以上方式来对免费IP进行处理使用。


相关文章内容简介
推荐阅读
  • 15 2019-03
    付费代理IP,用API代理还是爬虫代理好

    企业在使用代理IP时,对代理有质量上的追求,肯定是选择购买代理使用的。这代理IP也分类型的,有些是支持下载软件,直接使用的;有些是要提取IP进行使用;还有些是连接服务器使用的。

  • 10 2019-07
    代理怎么获取流量?

    代理如何获取流量?代理服务器可以简称代理,在网上的过程中,很多人都需要使用代理的,无论是直接还是间接,还有主动使用代理或者被动使用代理。那么代理如何获取流量呢?我们一起去

  • 10 2020-03
    电脑如何修改ip地址

    处在局域网中的计算机可能会遇到被网管限制带宽、限制浏览等情况,这些操作通常都是针对ip地址实现的,想要摆脱限制就需要更改ip地址,那么如何修更改ip地址呢?

  • 19 2020-06
    手机电脑有必要换ip吗

    目前越来越多的软件都会获取个人的某些信息,这代理软件能否也获取我们的用户信息呢?诸如,我们运用代理去获取信息,在这当中,能否记录了我们的账号密码呢?

  • 13 2019-03
    游戏根据什么来反外挂和封号

    不管是什么游戏,如果使用玩家使用外挂以及多开账号获利,这些都是影响游戏的平衡性,因此游戏会通过各种的方法来侦察,找到用外挂和多开账号的玩家,并进行封号处理。如果玩家需要了

  • 20 2019-03
    怎么设置代理服务器ip,实现自动更换IP的效果

    想要使用代理服务器更换IP地址,大家是从哪里找到代理服务器的?代理服务器是否能实现自动更换IP的效果?大家可以带着问题,跟小编去了解下。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部