我遇到了一个可能很容易的问题,所以我要求的是开始的想法:
在python中,我在fileNames之间生成了链接。每个fileName与字典nameNumber {fileName:[list of numbers]}
中的至少两个数字相关联。不同的fileNames可以具有一些共同的关联数字。为了看到这一点,我创建了一个字典numberName {number:[list of associated fileNames]}
。我想要做的是某种单一链接:重新组合至少有一个共同数字的所有文件名。这个分组必须高效,因为我有数百万个文件名。
答案 0 :(得分:1)
您可以尝试使用带有networkx的图表。
每个fileName都是图表的一个节点(G.add_node()
),您可以将具有公共数字的文件名与边缘链接起来。 networkx应该可以让你找到你的图表。