如何加速迭代大字典

时间:2016-10-31 19:37:10

标签: python loops dictionary

我的字典分别包含键值对sentence_IDcluster_ID

格式为:{sentence_ID : cluster_ID}

示例:

my_id_dict:
    {0: 71, 
    1: 63, 
    2: 66, 
    3: 92, 
    4: 49, 
    5: 85
      .
      .}

总的来说,我有 200,000比句子_ID 100 cluster_IDs

我正在尝试遍历my_id_dict以为每个群集生成 sentence_id列表

我想要的示例输出:

Cluster 0
[63, 71, 116, 168, 187, 231, 242, 290, 330, 343]

Cluster 1
[53, 107, 281, 292, 294, 313, 353, 392, 405, 479]

这是我使用的代码:

逻辑是,对于每个集群,创建一个句子列表,然后对于所有200,000个dict值中的cluster_id,如果dict值==当前集群索引,则将句子ID写入句子列表。

继续100次。

    cluster_dict = defaultdict(list)
    num_clusters = 100

    for cluster in xrange(0,num_clusters):
        print "\nCluster %d" % cluster

        sentences = []
        for i in xrange(0,len(my_id_dict.values())):
            if( my_id_dict.values()[i] == cluster ):
                sentences.append(my_id_dict.keys()[i])

        cluster_dict[cluster] = sentences
        print sentences[:10]

这有效,但速度非常慢。有没有更快的方法可以做到这一点?

1 个答案:

答案 0 :(得分:1)

您将遍历每个群集的每个句子。只需翻看每个句子,将其分配给一个群集:

cluster_dict = defaultdict(list)
for sentence, cluster in my_id_dict.items():
    cluster_dict[cluster].append(sentence)