我在java中使用PorterStemmer获取动词的基本形式,但我发现动词有问题"去"和"赌博"。而不是阻止它去"去"并且"赌博",它源于" goe"和" gambl"。有没有更好的工具可以处理以-es和-ed结尾的动词来检索动词的基本形式?带有wordnet java的P.S JAWS也是如此。 这是我的代码:
public class verb
{
public static void main(String[] args)
{
PorterStemmer ps = new PorterStemmer();
ps.setCurrent("gambles");
ps.stem();
System.out.println(ps.getCurrent());
}
}
以下是控制台中的输出:
gambl
答案 0 :(得分:0)
花几分钟时间阅读斯坦福NLP小组的这个教程
https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
你可以发现干扰器实际上并不像你想象的那样工作。这是粗暴的,所以它并不总是给你一个完整的基本形式的动词,结尾被切断。在你的情况下,既然你正在关心获得一个动词的完整基本形式,那么词形还原对你来说似乎更好。