您的位置:首页 > 新闻资讯 >文章内容
代理IP的重复度验证与格式化
来源:互联网 作者:admin 时间:2019-12-05 10:44:27

  像一些爬虫玩家,他们会将网络上面一些免费提供代理IP的网站进行抓取,将这些免费IP给提取下来使用。那么当我们抓取之后,需要对这些IP进行什么操作呢?首先就是要验证代理IP是否重复以及进行格式化处理了,下面看看是如何进行的:

代理IP的重复度验证与格式化

  验证代理ip(check_ip.py)


  1、文件查重


  写一个简单的函数用于查重,查重思路就是获取txt文件中的每一行元素,组成列表。对列表使用自带的set函数,注意:这种方法会改变列表原来的顺序。函数如下:


  from bs4 import BeautifulSoup


  import requests


  import time


  def check_repeat(path):


  """


  检查文件中每一行的内容是否重复,删除重复内容


  :param path: 文件路径


  :return:


  """


  try:


  # 读取文件


  data_list = []


  with open(path, "r") as fr:


  lines = fr.readlines()


  fr.close()


  for line in lines:


  data_list.append(line)


  new_data_list = list(set(data_list)) # 查重


  file_name = path.split("/")


  print(file_name[-1] + "文件共有 " + str(len(data_list)) + " 条数据")


  print("经过查重,现在共有 " + str(len(new_data_list)) + " 条数据")


  # 保存文件


  with open(path, "w") as f:


  for i in range(len(new_data_list)):


  f.write(new_data_list[i])


  f.close()


  print(file_name[-1] + "文件查重成功")


  except Exception as e:


  print("文件查重失败!!!")


  print(e)


  2、代理IP格式化


  网页获取的ip的格式基本为以下格式:


  5.135.66.232___8554___透明___http___法国___XXXX___XX___7.869 秒___4秒前


  220.230.120.101___8286___高匿___http___韩国___XXXX___XX___4.14 秒___11秒前


  从页面解析出来的代理ip的信息中间都是使用“—”进行隔开,为了方便直接使用,在此需要将上述的的格式转换为以下格式:


  5.135.66.232:8554


  220.230.120.101:8286


  函数如下:


  def ip_format(read_path, save_path):


  """


  将文件中的代理ip进行格式化转换,并进行查重


  :param read_path: 读取待转换的代理ip的文件路径


  :param save_path: 转换完成的代理ip的保存路径


  :return:


  """


  data_list = []


  with open(read_path, "r") as fr:


  lines = fr.readlines()


  fr.close()


  for line in lines:


  new_line = line.split("___")


  ip_format_line = new_line[0].replace(" ", "") + ":" + new_line[1] + "\n"


  data_list.append(ip_format_line)


  with open(save_path, "a") as fs:


  for i in range(len(data_list)):


  fs.write(data_list[i])


  fs.close()


  print("文件保存成功")


  fs.close()


  以上就是机灵代理带来的代理IP的查重以及格式化操作步骤介绍,大家可以按照以上方式来对免费IP进行处理使用。


相关文章内容简介
推荐阅读
  • 20 2019-03
    刷流量用什么IP代理软件好?

    自网络发展以来,商家都是跟着流量走,流量越多的地方,商机自然越多,获利也越容易。为了吸引客户,商家会首先自己刷些流量,增加些人气。这刷流量是有技巧,不然容易被系统查到

  • 07 2019-05
    IE内设代理IP上网

    IE内设代理IP上网,这样可以更加顺利的访问一些网站,因为有些网站可能访问比较频繁之后会被限制,但如果在IE内设代理IP上网,就不必担心这个问题了。

  • 10 2020-02
    代理ip对爬虫很有帮助

    网络爬虫是现在各大企业抓取数据的主要方式,很多人都知道爬虫要用代理IP,但对其中的缘由并不了解。那么,为什么代理IP可以帮助网络爬虫呢?

  • 13 2019-06
    代理ip按照什么分类?

    代理ip按照什么分类?代理ip的分类跟我们有什么关系?这当然是有关系的,如果不清楚,选择了不多的代理ip类型使用,就达不到需要的效果,例如平台是https协议的,而我们使用http代理ip去突

  • 27 2020-02
    ip代理能保护隐私吗

    保护隐私使用代理IP可以吗?我们在互联网遨游的时候,可能一不小心就会暴露自己的IP地址,使用换IP软件可以有效的隐藏自己的IP信息,起到保护隐私的作用

  • 03 2020-03
    寻找ip在线代理的途径

    为什么代理ip成为了互联网中不可缺少的重要一环?明明只是一个换ip软件,但是却在很多方面都少不了它的作用,这是什么原因呢?下面我们一起来关注。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部