我在我的项目中使用了porter stemmer(使用python)。但我看到输出中有一些错误。例如,术语" inteductory"改为"介绍人"而不是"介绍"。 是否有可能改善这一结果?
答案 0 :(得分:0)
为什么你认为这是一个错误? Porter Stemmer
算法中的第2步说明:
当茎中有另一个元音时,Step2()将'y'末端变为'i'。
所以introductory
确实应该转换为introductori
那就是说,如果你想把它分解为一个基础词你可以在Step4()
case 'i': if (ends("iciti")) { r("ic"); break; }
if (ends("tori")) { r("t"); break; }
break;