应用错误收集

您应首先开发词干分析器，因为您可以使用它来帮助您自动开发停用词列表。为了帮助您开发词干分析器，请使用我的Martin Porter开发的Snowball系统，这是Porter词干分析器的发明者，这是英语中使用最广泛的词干分析器。

一旦你拥有了你的词干分析器，你就可以通过挖掘文本语料库并利用Zipf法则自动开发禁用词列表。算法是：

四种流行的术语频率测量（搜索这些）是：

最近的研究集中在使用Kullback-Leibler分歧度量作为一个词的信息量的指示（信息量较少=更可能是一个禁用词）。您可能想要对此进行调查。