我是一个完全新手并且学习使用自然语言工具包使用python。 我一直试图用最常见的单词来分析文本。具体来说,我试图在其中制作最频繁的长词(超过6个字母)的图表。任何人都可以建议如何调整累积频率图 fdist.plot(累积=假) 所以它只适用于长话?
谢谢你!答案 0 :(得分:1)
在对单词列表进行标记后,在列表解析中使用len()消除不需要的单词。
from nltk import word_tokenize
tokens = word_tokenize(input_string)
long_words = [x for x in tokens if len(x) > 7]
使用这个新的令牌列表执行分析。查看this page以获得更详尽的解释。