以下是包含重复项的列表:
l1 = ['a', 'b', 'c', 'a', 'a', 'b']
这是期望的结果:
l1 = ['a', 'b', 'c', 'a_1', 'a_2', 'b_1']
如何通过附加计数来重命名重复项?
这是尝试实现这一目标;但是,有更多的Pythonic方式吗?
for index in range(len(l1)):
counter = 1
list_of_duplicates_for_item = [dup_index for dup_index, item in enumerate(l1) if item == l1[index] and l1.count(l1[index]) > 1]
for dup_index in list_of_duplicates_for_item[1:]:
l1[dup_index] = l1[dup_index] + '_' + str(counter)
counter = counter + 1
答案 0 :(得分:17)
在Python中,生成新列表通常比更改现有列表容易得多。我们有发电机有效地完成这项工作。 dict可以保持发生次数。
l = ['a', 'b', 'c', 'a', 'a', 'b']
def rename_duplicates( old ):
seen = {}
for x in old:
if x in seen:
seen[x] += 1
yield "%s_%d" % (x, seen[x])
else:
seen[x] = 0
yield x
print list(rename_duplicates(l))
答案 1 :(得分:5)
我会做这样的事情:
a1 = ['a', 'b', 'c', 'a', 'a', 'b']
a2 = []
d = {}
for i in a1:
d.setdefault(i, -1)
d[i] += 1
if d[i] >= 1:
a2.append('%s_%d' % (i, d[i]))
else:
a2.append(i)
print a2
答案 2 :(得分:1)
我认为你要求的输出本身就是混乱的,因此没有干净的方法来创建它。
您打算如何使用这个新列表?会不会像下面这样的字典工作呢?
{'a':3, 'b':2, 'c':1}
如果是这样,我会建议:
from collections import defaultdict
d = defaultdict(int) # values default to 0
for key in l1:
d[key] += 1
答案 3 :(得分:0)
根据您对@mathmike的评论,如果您的最终目标是从具有重复键的列表创建字典,我将使用来自`collections Lib的defaultdict
。
>>> from collections import defaultdict
>>> multidict = defaultdict(list)
>>> multidict['a'].append(1)
>>> multidict['b'].append(2)
>>> multidict['a'].append(11)
>>> multidict
defaultdict(<type 'list'>, {'a': [1, 11], 'b': [2]})
答案 4 :(得分:0)
我编写了这种方法,用于使用任何分隔符和数字或字母后缀(例如_1,_2或_a,_b,_c等)重命名列表中的重复项。可能不是最好的高效编写方法,但是我喜欢将其作为清晰易读的代码,并且易于扩展。
def rename_duplicates(label_list, seperator="_", mode="numeric"):
"""
options for 'mode': numeric, alphabet
"""
import string
if not isinstance(label_list, list) or not isinstance(seperator, str):
raise TypeError("lable_list and separator must of type list and str, respectively")
for item in label_list:
l_count = label_list.count(item)
if l_count > 1:
if mode == "alphabet":
postfix_str = string.ascii_lowercase
if len(postfix_str) < l_count:
# do something
pass
elif mode == "numeric":
postfix_str = "".join([str(i+1) for i in range(l_count)])
else:
raise ValueError("the 'mode' could be either 'numeric' or 'alphabet'")
postfix_iter = iter(postfix_str)
for i in range(l_count):
item_index = label_list.index(item)
label_list[item_index] += seperator + next(postfix_iter)
return label_list
label_list = ['a', 'b', 'c', 'a', 'a', 'b']
使用功能:
rename_duplicates(label_list)
结果:
['a_1', 'b_1', 'c', 'a_2', 'a_3', 'b_2']