使用OpenNLP训练大型数据集

时间:2012-12-05 07:08:17

标签: java nlp opennlp

我有.train文件的数据集,其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP训练。

示例代码:

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap()); 

但我收到错误:ArrayIndexOutofBoundException

有没有办法使用openNLP为NER训练大数据集?你可以发布示例代码吗?

当我用Google搜索时,我发现Class GIS和DataIndexer接口可以用来训练大型数据集,但我知道怎么做?你可以发布示例代码吗?

1 个答案:

答案 0 :(得分:2)

我可以创建具有更大数据的模型而不会出现任何问题。您的.train文件中的标记可能有问题。此外,如果您可以发布完整的例外情况会有所帮助吗?

对于训练大型模型,我只需校准截止值并增加Java内存。

相关问题