如何在多个标记化单词列表中计算10个最常见的单词

时间:2019-05-15 14:56:14

标签: python count nlp word

我有一个数据集,其中包含很多标记词列表。 例如:

['apple','banana','tomato']
['tomato','tree','pikachu']

我有大约40k个这样的列表,我想将所有40k列表中的10个最常用的词加在一起。

有人知道吗?

3 个答案:

答案 0 :(得分:4)

您可以使用this来简化嵌套列表,并使用itertools.chain及其most_common方法获取最常用的单词:

from itertools import chain
from collections import Counter

l = ['apple','banana','tomato'],['tomato','tree','pikachu']

Counter(chain(*l)).most_common(10)
# [('tomato', 2), ('apple', 1), ('banana', 1), ('tree', 1), ('pikachu', 1)]

答案 1 :(得分:0)

使用字典的解决方案

arrays = [['apple','banana','tomato'],['tomato','tree','pikachu']]
d = dict()
for array in arrays:
    for item in array:
        if item in d:
            d[item] += 1
        else:
            d[item] = 1
print(sorted( ((v,k) for k,v in d.items()), reverse=True)[:10])

输出

[('tomato', 2), ('apple', 1), ('banana', 1), ('tree', 1), ('pikachu', 1)]

答案 2 :(得分:0)

我建议将您的列表合并到一个列表中,例如

list_of_lists = [['apple','banana','tomato'],['tomato','tree','pikachu']]

import itertools
flat_list = list(itertools.chain(*list_of_lists))

然后使用Counter来计算您的令牌并仅选择前10个

from collections import Counter
counter_of_flat_list = Counter(flat_list)

print(counter_of_flat_list.most_common(10)) # print top 10

[('tomato',2),('apple',1),('banana',1),('tree',1),('pikachu',1)]