我正在实施一个搜索应用程序。 语料库是大型文本文档。 在文件处理期间,我正在对所有单词进行标记并调用Porter Stemmer算法 Step1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。
Step1摆脱了复数和-ed或-ing ......
我注意到像'this'这样的词会被带入'thi'。
算法是否正常运行? 因为我想将'this'这个词标记出来。
答案 0 :(得分:1)
根据您的描述,我的预感是this
在Porter Stemmer算法中被视为复数形式,并缩减为thi
。
在Porter的论文中,我没有找到以s
结尾的非复数词的明确引用。