Porter Stemmer算法问题

时间:2010-11-06 16:09:12

标签: search indexing porter-stemmer

我正在实施一个搜索应用程序。 语料库是大型文本文档。 在文件处理期间,我正在对所有单词进行标记并调用Porter Stemmer算法 Step1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。

Step1摆脱了复数和-ed或-ing ......

我注意到像'this'这样的词会被带入'thi'。

算法是否正常运行? 因为我想将'this'这个词标记出来。

1 个答案:

答案 0 :(得分:1)

根据您的描述,我的预感是this在Porter Stemmer算法中被视为复数形式,并缩减为thi

在Porter的论文中,我没有找到以s结尾的非复数词的明确引用。

http://tartarus.org/~martin/PorterStemmer/def.txt