基于Python中的公共值合并/加入字典列表

时间:2012-12-20 15:06:45

标签: python django

我有两个字典列表(以Django查询集的形式返回)。每个字典都有一个ID值。我想根据ID值将两者合并为一个词典列表。

例如:

list_a = [{'user__name': u'Joe', 'user__id': 1},
          {'user__name': u'Bob', 'user__id': 3}]
list_b = [{'hours_worked': 25, 'user__id': 3},
          {'hours_worked': 40, 'user__id': 1}]

我想要一个函数来产生:

list_c = [{'user__name': u'Joe', 'user__id': 1, 'hours_worked': 40},
          {'user__name': u'Bob', 'user__id': 3, 'hours_worked': 25}]

需要注意的其他要点:

  • 列表中的ID可能不是相同的顺序(与上面的示例相同)。
  • 列表可能具有相同数量的元素,但我想考虑选项,如果它们不是,而是保留list_a中的所有值(基本上是list_a OUTER JOIN list_b USING user__id)。
  • 我已尝试在SQL中执行此操作,但由于某些值是基于某些排除项的聚合,因此无法实现。
  • 由于使用了数据库查询,可以安全地假设每个列表中最多只有一个字典具有相同的user__id

非常感谢你的时间。

2 个答案:

答案 0 :(得分:18)

我会使用itertools.groupby对元素进行分组:

lst = sorted(itertools.chain(list_a,list_b), key=lambda x:x['user__id'])
list_c = []
for k,v in itertools.groupby(lst, key=lambda x:x['user__id']):
    d = {}
    for dct in v:
        d.update(dct)
    list_c.append(d)
    #could also do:
    #list_c.append( dict(itertools.chain.from_iterable(dct.items() for dct in v)) )
    #although that might be a little harder to read.

如果您厌恶lambda个功能,则可以始终使用operator.itemgetter('user__id')。 (它可能稍微有点效率)

为了揭开lambda / itemgetter的神秘面纱,请注意:

def foo(x):
    return x['user__id']

与以下任何一项相同*:

foo = operator.itemgetter('user__id')
foo = lambda x: x['user__id']

*存在一些差异,但它们对此问题并不重要

答案 1 :(得分:6)

from collections import defaultdict
from itertools import chain

list_a = [{'user__name': u'Joe', 'user__id': 1},
      {'user__name': u'Bob', 'user__id': 3}]
list_b = [{'hours_worked': 25, 'user__id': 3},
      {'hours_worked': 40, 'user__id': 1}]

collector = defaultdict(dict)

for collectible in chain(list_a, list_b):
    collector[collectible['user__id']].update(collectible.iteritems())

list_c = list(collector.itervalues())

正如您所看到的,这只是使用另一个dict来合并现有的dicts。使用defaultdict的技巧是它为新条目创建一个dict的苦差事。

无需对这些输入进行分组或排序。该词典负责所有这些。

如果输入没有'user__id'键,真正的防弹解决方案会捕获潜在的关键错误,或者使用默认值来收集没有这样的密钥的所有dicts。