我想在OpenNLP NameFinder
中训练自己的模型。
搜索了很多,最后提出了一个训练模型的工作代码,但它不准确。文档还说你需要15000个句子才能得到准确的模型。
因此,每次<START> <END>
时,您需要拥有15000个具有良好背景和名称的句子。要做到这一点,你将不得不花费数小时
几天/几个月写.txt file.
我做了一些进一步的搜索来训练一个模型,而没有全部由你自己写出来Custom Feature generation of OpenNLP
。
http://opennlp.apache.org/docs/1.8.1/manual/opennlp.html#tools.namefind.training.tool
但它没有说明如何使用它。文档提供了这个:
AdaptiveFeatureGenerator featureGenerator = new CachedFeatureGenerator(
new AdaptiveFeatureGenerator[]{
new WindowFeatureGenerator(new TokenFeatureGenerator(), 2, 2),
new WindowFeatureGenerator(new TokenClassFeatureGenerator(true), 2, 2),
new OutcomePriorFeatureGenerator(),
new PreviousMapFeatureGenerator(),
new BigramNameFeatureGenerator(),
new SentenceFeatureGenerator(true, false)
});
有人知道如何使用它吗?或者更好的是,有人已经成功地为OpenNLP NER
训练自己的模型而没有自己输入数据集吗?
提前致谢。
答案 0 :(得分:0)
您仍需要带注释的培训文字。在训练期间使用特征生成器来创建更好的模型。不幸的是,没有替代注释的培训文本。