应用错误收集

我有一个非常大的Seq[String]类型的数据集。我正在尝试创建Word2VecModel类型的mllib。

当我用500万个句子将语料库提供给Word2VecModel它的工作正常时，但是当我将输入语料库增加到750万个句子时，它就会腐败。

当我使用findSynonyms方法开始给出具有余弦相似性NaN的奇怪同义词时，在某种意义上是腐败的。

但是带有500万个句子的word2vec模型可以提供正确的输出。

以下是代码： -

val cleanedRDD = sqlContext.read.parquet(HDFS_URL + corpusPath).rdd.map(row => row.getAs[Seq[String]](0))
val word2Vec = new Word2Vec().setNumPartitions(100).setMinCount(3).setNumIterations(iteration).setVectorSize(200)
val word2VecModel = word2Vec.fit(cleanedRDD)

我尝试使用矢量大小100和200进行创建任何建议都将被适用。

Apache Spark Mllib Word2Vec模型以余弦相似性赋予Nan

0 个答案: