Question

我正在寻找一个简单的脚本，可以找到给定文档的单词频率（可能使用便携式词干分析器）。

是否有任何库或简单脚本执行此过程？

Answer 1

使用nltk

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]

Answer 2

你应该能够计算单词。根据您的需要，使用collections.Counter或dict。这部分很容易，但如果不是，你可以通过搜索SO本身找到答案。

我想你也想要Porter Stemmer，它的Python版本为http://tartarus.org/~martin/PorterStemmer/python.txt

用于查找给定文档的单词频率的Python脚本

2 个答案: