如何获取OpenNLP模型的训练数据集?

时间:2017-02-02 13:32:35

标签: machine-learning nlp text-mining opennlp

我使用的是以下OpenNLP模型:

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以得到原始数据集?

2 个答案:

答案 0 :(得分:1)

official OpenNLP manual Chunker Training 部分提到了对用于培训EN语言模型文件的原始数据的引用:

  

培训数据可以转换为OpenNLP chunker培训格式,该格式基于CoNLL2000

您还可以在/用于OpenNLP的外部资源中找到其他参考资料,例如第12章语料库

此外,可能会对CoNLL2003语料库感兴趣:

  

英国数据是路透社语料库,它是新闻线文章的集合。路透社语料库可以免费从NIST获得用于研究目的:http://trec.nist.gov/data/reuters/reuters.html

希望它有所帮助。

答案 1 :(得分:0)

有可用的插件。使用此modelbuilder-addon更新现有的NER模型,并以更快的方式创建新模型。

链接中的代码在您的句子中读取,使用默认的enner人模型来做到最好。然后它将这些结果写入好的命中文件和坏命中的文件。然后它将这些文件提供给" modelbuilder-addon"在底部打电话。

希望这有帮助!

相关问题