我对词性(pos)进行了新的研究,并且我正在对文本文档进行pos标记。我考虑使用OpenNLP或StanfordNLP。对于StanfordNLP,我使用MaxentTagger
并使用english-left3words-distsim.tagger
来训练它。在OpenNLP中,我使用POSModel
并使用en-pos-maxent.bin
进行训练。这两个标记(MaxentTagger
和POSTagger
)和训练集(english-left3words-distsim.tagger
和en-pos-maxent.bin
)如何不同,哪一个通常会产生更好的结果。
答案 0 :(得分:1)
两种POS标签都基于最大熵机器学习。它们在用于确定POS标签的参数/特征方面不同。例如,StanfordNLP pos tagger使用:" (i)对未知单词进行更广泛的大写处理; (ii)消除时态形式的动词的歧义; (iii)消除介词和副词中的粒子消除歧义的功能" (阅读更多in the paper)。 OpenNLP的功能记录在我目前还不知道的其他地方。
这些模型可能是在不同的语料库上训练的。
一般来说,很难说哪个NLP工具在质量方面表现更好。这实际上取决于您的域名,您需要测试您的工具。有关更多信息,请参阅以下文章:
为了实际解决这个问题,我正在开发Maven plugin and an annotation tool以更有效地创建特定于域的NLP模型。