在最近的一个项目中,我面临着将复数名词转换为单数形式的任务。我知道一些POS标记算法和工具可以识别复数形式的名词并将它们标记为'NNS',但我不知道任何算法可以将它们转换为单数形式。我已经尝试过阻止,但是词干似乎过于激进而不能转换这个词。它给出了这样的东西:
parties -> parti
但我想要的是:
fish -> fish
classes -> class
parties -> party
goods -> goods
cups -> cup
如果没有包含每个英文单词的大字典,这似乎是一个难题。有没有成熟的algortihm可以做到吗?我也很高兴知道是否有任何库可以做到这一点,尤其是Java中的库。感谢。
答案 0 :(得分:0)
你想要的是一个lemmatizer而不是一个词干。 java中有多个实现。我发现Stanford CoreNLP最容易在命令行中使用。 Morpha也很受欢迎。
PS你的问题是重复的。我正在回答,因为通过谷歌找到答案是非常困难的。