我使用的是以下OpenNLP模型:
en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin
我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以得到原始数据集?
答案 0 :(得分:1)
official OpenNLP manual的 Chunker Training 部分提到了对用于培训EN语言模型文件的原始数据的引用:
培训数据可以转换为OpenNLP chunker培训格式,该格式基于CoNLL2000。
您还可以在/用于OpenNLP的外部资源中找到其他参考资料,例如第12章语料库。
此外,可能会对CoNLL2003语料库感兴趣:
英国数据是路透社语料库,它是新闻线文章的集合。路透社语料库可以免费从NIST获得用于研究目的:http://trec.nist.gov/data/reuters/reuters.html
希望它有所帮助。
答案 1 :(得分:0)
有可用的插件。使用此modelbuilder-addon更新现有的NER模型,并以更快的方式创建新模型。
链接中的代码在您的句子中读取,使用默认的enner人模型来做到最好。然后它将这些结果写入好的命中文件和坏命中的文件。然后它将这些文件提供给" modelbuilder-addon"在底部打电话。
希望这有帮助!