如何在不同情况下基于相同的单词组合数组?

时间:2013-02-09 19:57:29

标签: python nltk

我正在经历the Python NLTK book。我通过运行:fdist=FreqDist(text1)对Moby Dick中的单词进行了频率分布,其中text1是Moby Dick的NLTK Text对象,即小说中单词的列表。现在我有一个频率分配对象:

>>> fdist1
<FreqDist with 260819 outcomes>

然而,列表中的许多人在不同的情况下是相同的单词,例如单词&#34; a&#34;大写和小写:

>>> fdist1['a']
4569
>>> fdist1['A']
167

如何组合这两个单词(以及单独列出的每个单词)?

1 个答案:

答案 0 :(得分:0)

您可以创建一个新的dict,遍历FreqDict并小写该键。像这样 -

lc_dict = defaultdict(int)
for (key, value) in fdist1.items():
    lc_dict[key.lower()] = lc_dict[key.lower()] + value