英文lemmatizer数据库?

时间:2011-06-10 15:00:51

标签: nlp stemming lemmatization morphological-analysis

你知道任何足够大的变形数据库能够为下面的样本单词返回正确的结果:

geese: goose
plantes: //not found

Wordnet的形态分析器还不够,因为它会产生以下不正确的结果:

geese: //not found
plantes: plant

2 个答案:

答案 0 :(得分:2)

MorphAdorner似乎更好,但它仍然发现“plantes”的错误结果

plantes: plante
geese: goose

也许您想使用MorphAdorner进行词形还原,然后针对WordNet检查其结果。您可以使用WordNet API执行查找,而无需首先通过调用findtheinfo_ds执行词形还原。这允许您首先使用像MorphAdorner这样的词形变换器。 (如果你想使用lemmaitzer,你需要单独调用morph并在它返回的词条上调用findtheinfo_ds。)

另一方面,为了这个目的,我只花了大约5秒钟看MorphAdorner,并且可能有办法消除不正确的“plantes”答案,而不必使用任何其他外部资源。

答案 1 :(得分:1)

Once upon a time,有人向我建议Morpha,但我没有使用它,所以我不知道它在这方面是否比WordNet更好。