Question

我想使用由多个文件组成的语料库训练斯坦福语标记符，并将在以后进行扩展。

是否可以更新一个存在的模型，或者每次都必须使用整个语料库进行训练？

是否有使用API进行培训的示例？ MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训。

谢谢！

Answer 1

目前，您必须每次都使用整个语料库进行训练。（从理论上讲，使用附加数据更新模型是可能的，但它不是目前存在的东西，而且不在我们的前面。）

我们从命令行完成所有模型的训练....实际上，看看代码，似乎火车方法是私有的，所以你需要让它更公开才能够进行训练来自API。我们应该解决这个问题可能会尝试这样做。

如果访问级别不同，您可以创建TaggerConfig然后调用此方法：

  private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }

但是，即便如此，它目前始终将其构建的标记器保存到磁盘。因此，可以通过一些改造来顺利实现这一点。