Python删除组合字典列表中的重复值

时间:2013-02-08 06:26:03

标签: python list dictionary key duplicates

我需要一些功课帮助。我必须编写一个将几个字典组合成新字典的函数。如果一个键出现不止一次;与新词典中的该键对应的值应该是唯一列表。作为一个例子,这是我到目前为止:

f = {'a': 'apple', 'c': 'cat', 'b': 'bat', 'd': 'dog'}
g =  {'c': 'car', 'b': 'bat', 'e': 'elephant'}
h = {'b': 'boy', 'd': 'deer'}
r = {'a': 'adam'}

def merge(*d):
    newdicts={}
    for dict in d:
        for k in dict.items():
            if k[0] in newdicts:
                newdicts[k[0]].append(k[1])
            else:
                newdicts[k[0]]=[k[1]]
    return newdicts

combined = merge(f, g, h, r)
print(combined)

输出如下:

{'a':['apple','adam'],'c':['cat','car'],'b':['bat','bat','boy'], 'e':['elephant'],'d':['dog','deer']}

在'b'键下,'bat'出现两次。如何删除重复项?

我看过滤镜,lambda但我无法弄清楚如何使用(也许b / c它是字典中的列表?)

任何帮助将不胜感激。并提前感谢您的帮助!

4 个答案:

答案 0 :(得分:5)

在添加之前测试列表中的元素: -

for k in dict.items():
    if k[0] in newdicts:
        if k[1] not in newdicts[k[0]]:  # Do this test before adding.
            newdicts[k[0]].append(k[1])
    else:
        newdicts[k[0]]=[k[1]]

由于您只需要value列表中的唯一元素,因此您只需使用Set作为值。此外,您可以在此处使用defaultdict,这样您就无需在添加之前测试密钥存在。

此外,请勿将内置内容用作变量名称。而不是dict其他一些变量。

因此,您可以将merge方法修改为:

from collections import defaultdict

def merge(*d):
    newdicts = defaultdict(set)  # Define a defaultdict
    for each_dict in d:

        # dict.items() returns a list of (k, v) tuple.
        # So, you can directly unpack the tuple in two loop variables.
        for k, v in each_dict.items():  
            newdicts[k].add(v)

    # And if you want the exact representation that you have shown   
    # You can build a normal dict out of your newly built dict.
    unique = {key: list(value) for key, value in newdicts.items()}
    return unique

答案 1 :(得分:2)

>>> import collections
>>> import itertools
>>> uniques = collections.defaultdict(set)
>>> for k, v in itertools.chain(f.items(), g.items(), h.items(), r.items()):
...   uniques[k].add(v)
... 
>>> uniques
defaultdict(<type 'set'>, {'a': set(['apple', 'adam']), 'c': set(['car', 'cat']), 'b':        set(['boy', 'bat']), 'e': set(['elephant']), 'd': set(['deer', 'dog'])})

注意结果是集合而不是列表 - 这种方式的计算效率更高。如果您希望最终表单成为列表,那么您可以执行以下操作:

>>> {x: list(y) for x, y in uniques.items()}

{'a':['apple','adam'],'c':['car','cat'],'b':['boy','bat'],'e': ['elephant'],'d':['deer','dog']}

答案 2 :(得分:1)

在你的for循环中添加:

for dict in d:
    for k in dict.items():
        if k[0] in newdicts:
            # This line below
            if k[1] not in newdicts[k[0]]:
                newdicts[k[0]].append(k[1])
        else:
            newdicts[k[0]]=[k[1]]

这可确保不添加重复项

答案 3 :(得分:0)

当您需要唯一元素时使用set:

def merge_dicts(*d):
    result={}
    for dict in d:
        for key, value in dict.items():
          result.setdefault(key, set()).add(value)
    return result

尽量避免使用索引;取而代之的是解包元组。