使用API​​训练和重新训练斯坦福标记

时间:2014-10-19 18:01:12

标签: stanford-nlp

我想使用由多个文件组成的语料库训练斯坦福语标记符,并将在以后进行扩展。

是否可以更新一个存在的模型,或者每次都必须使用整个语料库进行训练?

是否有使用API​​进行培训的示例? MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训。

谢谢!

1 个答案:

答案 0 :(得分:1)

目前,您必须每次都使用整个语料库进行训练。 (从理论上讲,使用附加数据更新模型是可能的,但它不是目前存在的东西,而且不在我们的前面。)

我们从命令行完成所有模型的训练....实际上,看看代码,似乎火车方法是私有的,所以你需要让它更公开才能够进行训练来自API。我们应该解决这个问题可能会尝试这样做。

如果访问级别不同,您可以创建TaggerConfig然后调用此方法:

  private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }

但是,即便如此,它目前始终将其构建的标记器保存到磁盘。因此,可以通过一些改造来顺利实现这一点。