Question

我使用的是以下OpenNLP模型：

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以得到原始数据集？

Answer 1

official OpenNLP manual的 Chunker Training 部分提到了对用于培训EN语言模型文件的原始数据的引用：

培训数据可以转换为OpenNLP chunker培训格式，该格式基于CoNLL2000。

您还可以在/用于OpenNLP的外部资源中找到其他参考资料，例如第12章语料库。

此外，可能会对CoNLL2003语料库感兴趣：

英国数据是路透社语料库，它是新闻线文章的集合。路透社语料库可以免费从NIST获得用于研究目的：http://trec.nist.gov/data/reuters/reuters.html

希望它有所帮助。

Answer 2

有可用的插件。使用此modelbuilder-addon更新现有的NER模型，并以更快的方式创建新模型。

链接中的代码在您的句子中读取，使用默认的enner人模型来做到最好。然后它将这些结果写入好的命中文件和坏命中的文件。然后它将这些文件提供给＆＃34; modelbuilder-addon＆＃34;在底部打电话。

希望这有帮助！