我正在寻找一个简单的脚本,可以找到给定文档的单词频率(可能使用便携式词干分析器)。
是否有任何库或简单脚本执行此过程?
答案 0 :(得分:2)
使用nltk
import nltk
YOUR_STRING = "Your words"
words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)
tokens = freq_dist.keys()
#50 most frequent
most_frequent = tokens[:50]
#50 least frequent
least_frequent = tokens[-50:]
答案 1 :(得分:0)
你应该能够计算单词。根据您的需要,使用collections.Counter
或dict
。这部分很容易,但如果不是,你可以通过搜索SO本身找到答案。
我想你也想要Porter Stemmer,它的Python版本为http://tartarus.org/~martin/PorterStemmer/python.txt