用于查找给定文档的单词频率的Python脚本

时间:2011-09-20 04:02:40

标签: python information-retrieval

我正在寻找一个简单的脚本,可以找到给定文档的单词频率(可能使用便携式词干分析器)。

是否有任何库或简单脚本执行此过程?

2 个答案:

答案 0 :(得分:2)

使用nltk

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]

答案 1 :(得分:0)

你应该能够计算单词。根据您的需要,使用collections.Counterdict。这部分很容易,但如果不是,你可以通过搜索SO本身找到答案。

我想你也想要Porter Stemmer,它的Python版本为http://tartarus.org/~martin/PorterStemmer/python.txt