是否有“堆栈和地图”模拟与dicts?

时间:2018-04-25 18:18:42

标签: python python-3.x pandas dictionary mapping

我最近不得不将dict键映射到评估问题中的值。我从以下开始:

files=
{'Code.py': 'Stan', 'Output.txt': 'Randy', 'Input.txt': 'Randy'}

是将文件映射到其所有者,我使用了以下内容:

mapped={
        name:[key for key,value in files.items() if value==name]
        for name in list(set([value for key,value in files.items()]))
        }

mapped词典中给了我想要的东西:

{'Stan': ['Code.py'], 'Randy': ['Output.txt', 'Input.txt']}

我只是想知道是否有更多类似熊猫的方式做同样的事情,但是用一个简单的字典。

1 个答案:

答案 0 :(得分:1)

您可以使用defaultdict

from collections import defaultdict
mapped = defaultdict(list)
​
for k, v in files.items():
    mapped[v].append(k)

mapped
# defaultdict(list, {'Stan': ['Code.py'], 'Randy': ['Output.txt', 'Input.txt']})

或在字典上使用setdefault方法:

mapped = {}
​
for k, v in files.items():
    mapped.setdefault(v, []).append(k)

mapped
# {'Stan': ['Code.py'], 'Randy': ['Output.txt', 'Input.txt']}

或者如果您更喜欢pandas(但这对此任务效率不高):

s = pd.Series(files)
s.groupby(s).agg(lambda x: x.index.tolist()).to_dict()
# {'Randy': ['Input.txt', 'Output.txt'], 'Stan': ['Code.py']}

小样本数据的时间安排:

%%timeit
from collections import defaultdict
mapped = defaultdict(list)
​
for k, v in files.items():
    mapped[v].append(k)
# 2 µs ± 33.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%%timeit
s = pd.Series(files)
s.groupby(s).agg(lambda x: x.index.tolist()).to_dict()
# 2.12 ms ± 54.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)