条件频率分布nltk

时间:2016-03-17 22:35:18

标签: python plot nltk

我是一个完全新手并且学习使用自然语言工具包使用python。 我一直试图用最常见的单词来分析文本。具体来说,我试图在其中制作最频繁的长词(超过6个字母)的图表。任何人都可以建议如何调整累积频率图 fdist.plot(累积=假) 所以它只适用于长话?

谢谢你!

1 个答案:

答案 0 :(得分:1)

在对单词列表进行标记后,在列表解析中使用len()消除不需要的单词。

from nltk import word_tokenize
tokens = word_tokenize(input_string)

long_words = [x for x in tokens if len(x) > 7]

使用这个新的令牌列表执行分析。查看this page以获得更详尽的解释。