Question

是否可以将预训练（二进制）模型加载到spark（使用scala）？我试图加载一个由谷歌生成的二进制模型，如下所示：

    import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel}


    val model = Word2VecModel.load(sc, "GoogleNews-vectors-negative300.bin")

但无法找到元数据目录。我还创建了文件夹并在那里附加了二进制文件但无法解析。我找不到这个问题的包装器。

Answer 1

我写了一个快速功能，将谷歌新闻预训练模型加载到spark word2vec模型中。享受。

sum(abs(diff(a)/a[-length(a)]) > .003)

Answer 2

要么查看特定代码并尝试为自己重新创建一些内容，要么使用python或C脚本将二进制文件转换为txt数据并从那里开始工作。