OpenNLP与StanfordNLP

时间:2015-10-17 22:02:50

标签: nlp stanford-nlp opennlp part-of-speech

我对词性(pos)进行了新的研究,并且我正在对文本文档进行pos标记。我考虑使用OpenNLP或StanfordNLP。对于StanfordNLP,我使用MaxentTagger并使用english-left3words-distsim.tagger来训练它。在OpenNLP中,我使用POSModel并使用en-pos-maxent.bin进行训练。这两个标记(MaxentTaggerPOSTagger)和训练集(english-left3words-distsim.taggeren-pos-maxent.bin)如何不同,哪一个通常会产生更好的结果。

1 个答案:

答案 0 :(得分:1)

两种POS标签都基于最大熵机器学习。它们在用于确定POS标签的参数/特征方面不同。例如,StanfordNLP pos tagger使用:" (i)对未知单词进行更广泛的大写处理; (ii)消除时态形式的动词的歧义; (iii)消除介词和副词中的粒子消除歧义的功能" (阅读更多in the paper)。 OpenNLP的功能记录在我目前还不知道的其他地方。

这些模型可能是在不同的语料库上训练的。

一般来说,很难说哪个NLP工具在质量方面表现更好。这实际上取决于您的域名,您需要测试您的工具。有关更多信息,请参阅以下文章:

为了实际解决这个问题,我正在开发Maven plugin and an annotation tool以更有效地创建特定于域的NLP模型。