标签: batch-processing word2vec h2o checkpoint
是否可以使用h2o从大型语料库生成word2vec模型?
我有一个大型的法律专用语料库(使用Snappy压缩的镶木地板文件中约有80GB)。 我无法使用h2o训练word2vec模型,因为它无法容纳在内存中,并且我找不到找到以增量方式或分批方式制造它的方法。 有没有办法使用以前的检查点和/或重用从另一个语料库生成的嵌入?
是否有可用的示例?