Question

我是一个完全新手并且学习使用自然语言工具包使用python。我一直试图用最常见的单词来分析文本。具体来说，我试图在其中制作最频繁的长词（超过6个字母）的图表。任何人都可以建议如何调整累积频率图 fdist.plot（累积=假）所以它只适用于长话？

谢谢你！

Answer 1

在对单词列表进行标记后，在列表解析中使用len（）消除不需要的单词。

from nltk import word_tokenize
tokens = word_tokenize(input_string)

long_words = [x for x in tokens if len(x) > 7]

使用这个新的令牌列表执行分析。查看this page以获得更详尽的解释。