我有.train
文件的数据集,其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP训练。
示例代码:
TokenNameFinderModel model=NameFinderME.train("en","organization",
sampleStream,Collections.<String, Object>emptyMap());
但我收到错误:ArrayIndexOutofBoundException
。
有没有办法使用openNLP为NER训练大数据集?你可以发布示例代码吗?
当我用Google搜索时,我发现Class GIS和DataIndexer接口可以用来训练大型数据集,但我知道怎么做?你可以发布示例代码吗?
答案 0 :(得分:2)
我可以创建具有更大数据的模型而不会出现任何问题。您的.train文件中的标记可能有问题。此外,如果您可以发布完整的例外情况会有所帮助吗?
对于训练大型模型,我只需校准截止值并增加Java内存。