在Spark中加载Word2Vec模型

时间:2017-05-09 09:57:04

标签: scala apache-spark word2vec

是否可以将预训练(二进制)模型加载到spark(使用scala)?我试图加载一个由谷歌生成的二进制模型,如下所示:

    import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel}


    val model = Word2VecModel.load(sc, "GoogleNews-vectors-negative300.bin")

但无法找到元数据目录。我还创建了文件夹并在那里附加了二进制文件但无法解析。我找不到这个问题的包装器。

2 个答案:

答案 0 :(得分:3)

我写了一个快速功能,将谷歌新闻预训练模型加载到spark word2vec模型中。享受。

sum(abs(diff(a)/a[-length(a)]) > .003)

答案 1 :(得分:1)

这是一个尚未解决的问题: https://issues.apache.org/jira/browse/SPARK-15328

要么查看特定代码并尝试为自己重新创建一些内容,要么使用python或C脚本将二进制文件转换为txt数据并从那里开始工作。

Convert word2vec bin file to text