Question

val model: org.apache.spark.ml.feature.Word2VecModel = new Word2Vec().setNumPartitions(20).setInputCol("value").setOutputCol("feature").fit(copus)
word2VecModel.save(s"$HDFS_URL/w2vmodel")

当我保存此模型时，它只在数据文件夹part-r-0000-988jdu-sduj76-jh433.snappy.parquet下创建单个分区大小900 MB

val model: org.apache.spark.ml.feature.Word2VecModel =Word2VecModel.load("$HDFS_URL/w2vmodel")

因此，当我加载此模型时，我正在获取OutOfMemory异常

有没有办法这个模型可以用镶木地板的多个部分或任何其他东西保存

我是新手，所以任何建议都将受到赞赏

Answer 1

巧合的是，这个问题已经recently discussed on the developers lists了，这次讨论产生了JIRA票和拉取请求：

SPARK-19247 - 改进ml word2vec save / load
https://github.com/apache/spark/pull/16607

如果您想要快速解决方案，可以尝试在Spark 2.0或更高版本（SPARK-11994）中使用MLlib实现。

单一部分的Word2Vec模型存储模型

1 个答案: