我想使用由多个文件组成的语料库训练斯坦福语标记符,并将在以后进行扩展。
是否可以更新一个存在的模型,或者每次都必须使用整个语料库进行训练?
是否有使用API进行培训的示例? MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训。
谢谢!
答案 0 :(得分:1)
目前,您必须每次都使用整个语料库进行训练。 (从理论上讲,使用附加数据更新模型是可能的,但它不是目前存在的东西,而且不在我们的前面。)
我们从命令行完成所有模型的训练....实际上,看看代码,似乎火车方法是私有的,所以你需要让它更公开才能够进行训练来自API。我们应该解决这个问题可能会尝试这样做。
如果访问级别不同,您可以创建TaggerConfig然后调用此方法:
private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }
但是,即便如此,它目前始终将其构建的标记器保存到磁盘。因此,可以通过一些改造来顺利实现这一点。