是否可以将预训练(二进制)模型加载到spark(使用scala)?我试图加载一个由谷歌生成的二进制模型,如下所示:
import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel}
val model = Word2VecModel.load(sc, "GoogleNews-vectors-negative300.bin")
但无法找到元数据目录。我还创建了文件夹并在那里附加了二进制文件但无法解析。我找不到这个问题的包装器。
答案 0 :(得分:3)
我写了一个快速功能,将谷歌新闻预训练模型加载到spark word2vec模型中。享受。
sum(abs(diff(a)/a[-length(a)]) > .003)
答案 1 :(得分:1)
这是一个尚未解决的问题: https://issues.apache.org/jira/browse/SPARK-15328
要么查看特定代码并尝试为自己重新创建一些内容,要么使用python或C脚本将二进制文件转换为txt数据并从那里开始工作。