我刚刚安装了openNLP并测试了一些词干。那些干扰结果对我来说很可疑。
people => peopl
excellent => excel
beautiful => beauti
我不确定这些是OpenNLP的原始输出,还是我的安装存在一些无法产生正确结果的问题。
有人可以帮我核实这些吗?非常感谢你。
答案 0 :(得分:3)
是的,这是有道理的。来自Wikipedia:
茎不必与该词的形态根相同;通常,相关的单词映射到同一个词干就足够了,即使这个词干本身并不是一个有效的词根。
Lemmatizer是返回形态根的工具。它得到变形的单词和pos标签并返回引理。您可以在OpenNLP Manual中查看如何使用它。