从python字典中删除重复键但总结值

时间:2012-05-18 14:28:00

标签: python duplicates

我在python中有一本词典

d = {tags[0]: value, tags[1]: value, tags[2]: value, tags[3]: value, tags[4]: value}

想象这个dict大10倍,它有50个键和50个值。可以在此标签中找到重复项,但即使这样,值也是必不可少的。我怎样才能简单地修剪它以重新获得新的字典而不需要重复键但是使用值的总和呢?

d = {'cat': 5, 'dog': 9, 'cat': 4, 'parrot': 6, 'cat': 6}

结果

d = {'cat': 15, 'dog': 9, 'parrot': 6}

8 个答案:

答案 0 :(得分:6)

我想改进Paul Seeb的回答:

tps = [('cat',5),('dog',9),('cat',4),('parrot',6),('cat',6)]
result = {}
for k, v in tps:
  result[k] = result.get(k, 0) + v

答案 1 :(得分:3)

tps = [('cat',5),('dog',9),('cat',4),('parrot',6),('cat',6)]

from collections import defaultdict

dicto = defaultdict(int)

for k,v in tps:
    dicto[k] += v

结果:

>>> dicto
defaultdict(<type 'int'>, {'dog': 9, 'parrot': 6, 'cat': 15})

答案 2 :(得分:2)

我假设您可以将它们放在元组对的列表中,而不仅仅是对那些事物的dict(在dict中不能有多个相同的键)。然后它就像

一样简单
tps = [('cat',5),('dog',9),('cat',4),('parrot',6),('cat',6)]
result = {}
for k,v in tps:
    try:
        result[k] += v
    except KeyError:
        result[k] = v

>>> result
{'dog': 9, 'parrot': 6, 'cat': 15}

将我改为更明确的try-except处理。 Alfe是非常简洁的

答案 3 :(得分:1)

Perhapse你真正想要的是tuple键值对。

[('dog',1), ('cat',2), ('cat',3)]

答案 4 :(得分:1)

我不确定你想要实现的目标,但Counter类可能对你要做的事情有所帮助: http://docs.python.org/dev/library/collections.html#collections.Counter

答案 5 :(得分:1)

这是使用Counter数据结构的完美情况。 让我们来看看它在几个熟悉的数据结构上的作用。 让我们从良好的旧名单开始。

>>> from collections import Counter
>>> list_a = ["A", "A", "B", "C", "C", "A", "D"]
>>> list_b = ["B", "A", "B", "C", "C", "C", "D"]
>>> c1 = Counter(list_a)
>>> c2 = Counter(list_b)
>>> c1
Counter({'A': 3, 'C': 2, 'B': 1, 'D': 1})
>>> c2
Counter({'C': 3, 'B': 2, 'A': 1, 'D': 1})
>>> c1 - c2
Counter({'A': 2})
>>> c1 + c2
Counter({'C': 5, 'A': 4, 'B': 3, 'D': 2})
>>> c_diff = c1 - c2
>>> c_diff.update([77, 77, -99, 0, 0, 0])
>>> c_diff
Counter({0: 3, 'A': 2, 77: 2, -99: 1})

正如您所看到的,这表现为一个将元素出现次数保持为值的集合。 嗯,但是使用字典而不是列表呢?字典本身就是一个类似于集合的结构,对于我们不必拥有数字的值,那么如何处理?让我们来看看。

>>> dic1 = {"A":"a", "B":"b"}
>>> cd = Counter(dic1)
>>> cd
Counter({'B': 'b', 'A': 'a'})
>>> cd.update(B='bB123')
>>> cd
Counter({'B': 'bbB123', 'A': 'a'})


>>> dic2 = {"A":[1,2], "B": ("a", 5)}
>>> cd2 = Counter(dic2)
>>> cd2
Counter({'B': ('a', 5), 'A': [1, 2]})
>>> cd2.update(A=[42], B=(2,2))
>>> cd2
Counter({'B': ('a', 5, 2, 2), 'A': [1, 2, 42, 42, 42, 42]})
>>> cd2 = Counter(dic2)
>>> cd2
Counter({'B': ('a', 5), 'A': [1, 2]})
>>> cd2.update(A=[42], B=("new elem",))
>>> cd2
Counter({'B': ('a', 5, 'new elem'), 'A': [1, 2, 42]})

正如您所看到的,我们添加/更改的值必须与update中的类型相同,否则会引发TypeError。 至于你的具体情况,请选择流程

>>> d = {'cat': 5, 'dog': 9, 'cat': 4, 'parrot': 6, 'cat': 6}
>>> cd3 = Counter(d)
>>> cd3
Counter({'dog': 9, 'parrot': 6, 'cat': 6})
cd3.update(parrot=123)
cd3
Counter({'parrot': 129, 'dog': 9, 'cat': 6})

答案 6 :(得分:0)

此选项可用但可以通过列表完成,或者最好能提供洞察力

data = []
        for i, j in query.iteritems():
            data.append(int(j))    
        try:
            data.sort()
        except TypeError:
            del data
        data_array = []
        for x in data:
            if x not in data_array:
                data_array.append(x)  
        return data_array

答案 7 :(得分:0)

如果我正确理解您想要摆脱重复密钥数据的问题,请在创建字典时使用字典的更新功能。如果密钥是重复的,它将覆盖数据。

tps = [('cat',5),('dog',9),('cat',4),('parrot',6),('cat',6)]
result = {}
for k, v in tps:
    result.update({k:v})
for k in result:
    print "%s: %s" % (k, result[k]) 

输出如下: 狗:9 鹦鹉:6 猫:6