假设我有两个这样的词典。
a = {'file1': [('1.txt', 1.0),
('3.txt', 0.4),
('2.txt', 0.3)],
'file2': [('1.txt', 0.5),
('2.txt', 0.2),
('3.txt', 1.0)]}
b = {'file1': [('1.txt', 9),
('2.txt', 1),
('3.txt', 5),
('4.txt', 4)],
'file2': [('1.txt', 0),
('2.txt', 2),
('3.txt', 3),
('4.txt', 0)]}
我写了一个基于字典a来过滤字典b的函数。
该功能的预期结果如下:
c = {'file1': [('1.txt', 9),
('2.txt', 1),
('3.txt', 5)],
'file2': [('1.txt', 0),
('2.txt', 2),
('3.txt', 3)]
到目前为止,我已经写了一个函数,但它的输出并不是我想要的。
def filter():
c = {file1:set((txt1,value2)
for file1,dic1 in a.items()
for file2,dic2 in b.items()
for txt1,value1 in dic1
for txt2,value2 in dic2
if txt1 == txt2 and file1 == file2)
for file1,dic1 in a.items()}
pp({k:v for k,v in c.items()})
现在输出如下所示:
{'file1': {('1.txt', 0),
('1.txt', 9),
('2.txt', 1),
('2.txt', 2),
('3.txt', 3),
('3.txt', 5)},
'file2': {('1.txt', 0),
('1.txt', 9),
('2.txt', 1),
('2.txt', 2),
('3.txt', 3),
('3.txt', 5)}}
我不知道哪里出了问题。 任何帮助将不胜感激。
答案 0 :(得分:3)
您可以使用collections.defaultdict
执行此类任务:
>>> from collections import defaultdict
>>> d=defaultdict(list)
>>> for k,v in b.items():
... for i in v:
... if i[0] in zip(*a[k])[0]: #in python 3 next(zip(*a[k]))
... d[k].append(i)
...
>>> d
defaultdict(<type 'list'>, {'file2': [('1.txt', 0), ('2.txt', 2), ('3.txt', 3)], 'file1': [('1.txt', 9), ('2.txt', 1), ('3.txt', 5)]})
注意用于检查a中是否存在b
值,您可以使用zip函数获取文件名!
另外,您可以使用dict.setdefault() method:
>>> c={}
>>> for k,v in b.items():
... for i in v:
... if i[0] in zip(*a[k])[0]:
... c.setdefault(k,[]).append(i)
...
>>> c
{'file2': [('1.txt', 0), ('2.txt', 2), ('3.txt', 3)], 'file1': [('1.txt', 9), ('2.txt', 1), ('3.txt', 5)]}
注意:如果您使用python3作为zip
函数返回生成器,则无法将其编入索引,因此您需要将zip(*a[k])[0]:
更改为next(zip(*a[k])):
答案 1 :(得分:1)
我也是新学员,我的回答不如以前那么好,但是因为我花了一些时间解决问题:)我的代码是
from collections import defaultdict
def f(data, flt):
newflt = {}
for k, v in flt.items():
newflt[k] = map(lambda t: t[0], v)
outd = defaultdict(list)
for k, v in data.items():
fv = newflt[k]
for t in v:
if t[0] in fv:
outd[k].append(t)
return outd
答案 2 :(得分:1)
如果您只希望将常用键保存在具有不常见键的公共值中:
print({k:[v for v in val if v[0] in {x[0] for x in a[k]}] for k, val in b.items() if k in a})
{'file2': [('1.txt', 0), ('2.txt', 2), ('3.txt', 3)], 'file1': [('1.txt', 9), ('2.txt', 1), ('3.txt', 5)]}
如果您有不常见的密钥,并且还想保留这些密钥和值:
print({k:([v for v in val if v[0] in {x[0] for x in a[k]}] if k in a else val) for k, val in b.items()})
{'file2': [('1.txt', 0), ('2.txt', 2), ('3.txt', 3)], 'file1': [('1.txt', 9), ('2.txt', 1), ('3.txt', 5)]}
如果您想实际过滤原始字典:
for k, val in b.items():
b[k] = [v for v in val if v[0] in {x[0] for x in a[k]}]
print(b)
如果所有键都很常见,或者dict comp创建一个新的dict:
print({k:[v for v in val if v[0] in {x[0] for x in a[k]}] for k, val in b.items()})
{'file2': [('1.txt', 0), ('2.txt', 2), ('3.txt', 3)], 'file1': [('1.txt', 9), ('2.txt', 1), ('3.txt', 5)]}
过滤原始词典将是最有效的。