Apache Spark Mllib Word2Vec模型以余弦相似性赋予Nan

时间:2017-03-03 08:35:31

标签: apache-spark apache-spark-mllib word2vec

我有一个非常大的Seq[String]类型的数据集。 我正在尝试创建Word2VecModel类型的mllib

当我用500万个句子将语料库提供给Word2VecModel它的工作正常时,但是当我将输入语料库增加到750万个句子时,它就会腐败。

当我使用findSynonyms方法开始给出具有余弦相似性NaN的奇怪同义词时,在某种意义上是腐败的。

但是带有500万个句子的word2vec模型可以提供正确的输出。

以下是代码: -

val cleanedRDD = sqlContext.read.parquet(HDFS_URL + corpusPath).rdd.map(row => row.getAs[Seq[String]](0))
val word2Vec = new Word2Vec().setNumPartitions(100).setMinCount(3).setNumIterations(iteration).setVectorSize(200)
val word2VecModel = word2Vec.fit(cleanedRDD)

我尝试使用矢量大小100和200进行创建 任何建议都将被适用。

0 个答案:

没有答案