Question

我有.train文件的数据集，其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP训练。

示例代码：

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap());

但我收到错误：ArrayIndexOutofBoundException。

有没有办法使用openNLP为NER训练大数据集？你可以发布示例代码吗？

当我用Google搜索时，我发现Class GIS和DataIndexer接口可以用来训练大型数据集，但我知道怎么做？你可以发布示例代码吗？

Answer 1

我可以创建具有更大数据的模型而不会出现任何问题。您的.train文件中的标记可能有问题。此外，如果您可以发布完整的例外情况会有所帮助吗？

对于训练大型模型，我只需校准截止值并增加Java内存。