Question

我正在开发一个NLP（自然语言处理）项目，我在其中使用了集合库中的Python Counter（）函数。我将以下列形式获得结果：

输出：

Counter({'due': 23, 'support': 20, 'ATM': 16, 'come': 12, 'case': 11, 'Sallu': 10, 'tough,': 9, 'team': 8, 'evident': , 'likely': 6, 'rupee': 4, 'depreciated': 2, 'senior': 1, 'neutral': 1, 'told': 1, 'tour\n\nRussia’s': 1, 'Vladimir': 1, 'indeed,': 1, 'welcome,”': 1, 'player': 1, 'added': 1, 'Games,': 1, 'Russia': 1, 'arrest': 1, 'system.\nBut': 1, 'rate': 1, 'Tuesday': 1, 'February,': 1, 'idea': 1, 'ban': 1, 'data': 1, 'consecutive': 1, 'interbank': 1, 'man,': 1, 'involved': 1, 'aggressive': 1, 'took': 1, 'sure': 1, 'market': 1, 'custody': 1, 'gang.\nWithholding': 1, 'cricketer': 1})

问题是，我想提取计数超过1的单词。换句话说，我只想获得计数大于1或2的单词。

我希望在减少低频词后使用输出来制作词汇表。

PS ：我有超过100个文档来测试我的数据，有近2000个不同的单词。

PPS ：我已尝试过所有内容以获得结果，但无法这样做。我只需要一个逻辑并且能够实现。

Answer 1

您可以使用字典理解将Counter项限制为超过1个字数的字词：

from collections import Counter

c = Counter({'due': 23, 'support': 20, 'ATM': 16, 'come': 12, 'Russia': 1, 'arrest': 1})

res = Counter({k: v for k, v in c.items() if v > 1})

# Counter({'ATM': 16, 'come': 12, 'due': 23, 'support': 20})

Answer 2

您可以迭代dict中的键值对，并将它们添加到单独的列表中。这只是你想要最终生成一个列表，否则@jpp有更好的解决方案。

from collections import Counter

myStr = "This this this is really really good."
myDict = Counter(myStr.split())

myList = [k for k, v in myDict.items() if v > 1]

# ['this', 'really']

Python Counter（）函数用于计算多次出现的文档中的单词

2 个答案: