OpenNLP NameFinder自定义要素生成

时间:2017-10-25 07:45:13

标签: java machine-learning opennlp named-entity-recognition

我想在OpenNLP NameFinder中训练自己的模型。

搜索了很多,最后提出了一个训练模型的工作代码,但它不准确。文档还说你需要15000个句子才能得到准确的模型。

因此,每次<START> <END>时,您需要拥有15000个具有良好背景和名称的句子。要做到这一点,你将不得不花费数小时 几天/几个月写.txt file.

我做了一些进一步的搜索来训练一个模型,而没有全部由你自己写出来Custom Feature generation of OpenNLPhttp://opennlp.apache.org/docs/1.8.1/manual/opennlp.html#tools.namefind.training.tool

但它没有说明如何使用它。文档提供了这个:

AdaptiveFeatureGenerator featureGenerator = new CachedFeatureGenerator(
     new AdaptiveFeatureGenerator[]{
       new WindowFeatureGenerator(new TokenFeatureGenerator(), 2, 2),
       new WindowFeatureGenerator(new TokenClassFeatureGenerator(true), 2, 2),
       new OutcomePriorFeatureGenerator(),
       new PreviousMapFeatureGenerator(),
       new BigramNameFeatureGenerator(),
       new SentenceFeatureGenerator(true, false)
       });

有人知道如何使用它吗?或者更好的是,有人已经成功地为OpenNLP NER训练自己的模型而没有自己输入数据集吗?

提前致谢。

1 个答案:

答案 0 :(得分:0)

您仍需要带注释的培训文字。在训练期间使用特征生成器来创建更好的模型。不幸的是,没有替代注释的培训文本。