我正在使用带有Python的NLTK来分析一些数据。我构建了一个FreqDist
,其中包含一个语料库中的字符串列表,结果集中大约有1,000个单词。我想只显示那些计数超过X的单词,因为当我用myfreqdist.plot()
绘制所有值时,它不能适应所有的值而我不知道我能做什么传入绘图以限制结果集。
答案 0 :(得分:1)
如果要限制要在图中显示的单词数,可以指定要显示为plot()
函数的第一个参数的最常用单词的数量。
在您的情况下,您首先要计算有多少单词的频率大于X.
因此,您可以使用以下方法
num = len([a for a in myfreqdist if myfreqdist[a]>X])
myfreqdist.plot(num)
在这种情况下,num是出现超过X次的单词数。给定此数字,您可以在plot()
函数中使用它。