val model: org.apache.spark.ml.feature.Word2VecModel = new Word2Vec().setNumPartitions(20).setInputCol("value").setOutputCol("feature").fit(copus)
word2VecModel.save(s"$HDFS_URL/w2vmodel")
当我保存此模型时,它只在数据文件夹part-r-0000-988jdu-sduj76-jh433.snappy.parquet
下创建单个分区
大小900 MB
val model: org.apache.spark.ml.feature.Word2VecModel =Word2VecModel.load("$HDFS_URL/w2vmodel")
因此,当我加载此模型时,我正在获取OutOfMemory
异常
有没有办法这个模型可以用镶木地板的多个部分或任何其他东西保存
我是新手,所以任何建议都将受到赞赏
答案 0 :(得分:0)
巧合的是,这个问题已经recently discussed on the developers lists了,这次讨论产生了JIRA票和拉取请求:
如果您想要快速解决方案,可以尝试在Spark 2.0或更高版本(SPARK-11994)中使用MLlib实现。