我知道之前曾问过这个问题 - 但答案并不令人满意(从某种意义上说答案只是一个链接)。
所以我的问题是,有没有办法扩展现有的openNLP模型?我已经了解了DBPedia / Wikipedia的技术。但是,如果我只是想附加一些文字来改进模型呢?真的没办法吗? (如果是这样 - 那真的很愚蠢......)
答案 0 :(得分:3)
不幸的是,你不能。请参阅this question,其中详细解答了同一问题。
我认为,这是一个问题,因为当您处理文本时,您经常会遇到许可问题。例如,您无法在Twitter数据上构建语料库并将其发布到社区(有关更多信息,请参阅this paper)。
因此,公司通常会构建特定于域的语料库并在内部使用它们。例如,我们在我们的研究项目中做过。因此,我们构建了一个工具(Quick Pad Tagger)来有效地创建带注释的语料库(参见here)。
答案 1 :(得分:1)
好的,我认为这需要一个单独的答案。 我找到了Yago数据库:http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//
这个数据库似乎很棒(从第一眼看)。您可以下载所有标记的数据并将其放入数据库中(他们已经为此提供了工具)。
下一步是“重构”标记的实体,以便opennlp可以使用它(openNLP使用sth。像这样<START:person> Pierre Vinken <END>
)
然后您创建一些文本文件并使用opennlp提供的培训工具进行训练。
不是100%确定这是否有效,但我会回来告诉你。