应用错误收集

我对词性（pos）进行了新的研究，并且我正在对文本文档进行pos标记。我考虑使用OpenNLP或StanfordNLP。对于StanfordNLP，我使用MaxentTagger并使用english-left3words-distsim.tagger来训练它。在OpenNLP中，我使用POSModel并使用en-pos-maxent.bin进行训练。这两个标记（MaxentTagger和POSTagger）和训练集（english-left3words-distsim.tagger和en-pos-maxent.bin）如何不同，哪一个通常会产生更好的结果。

两种POS标签都基于最大熵机器学习。它们在用于确定POS标签的参数/特征方面不同。例如，StanfordNLP pos tagger使用：＆＃34; （i）对未知单词进行更广泛的大写处理; （ii）消除时态形式的动词的歧义; （iii）消除介词和副词中的粒子消除歧义的功能＆＃34; （阅读更多in the paper）。 OpenNLP的功能记录在我目前还不知道的其他地方。

这些模型可能是在不同的语料库上训练的。

一般来说，很难说哪个NLP工具在质量方面表现更好。这实际上取决于您的域名，您需要测试您的工具。有关更多信息，请参阅以下文章：

为了实际解决这个问题，我正在开发Maven plugin and an annotation tool以更有效地创建特定于域的NLP模型。

OpenNLP与StanfordNLP

1 个答案: