我有一个非常大的Seq[String]
类型的数据集。
我正在尝试创建Word2VecModel
类型的mllib
。
当我用500万个句子将语料库提供给Word2VecModel
它的工作正常时,但是当我将输入语料库增加到750万个句子时,它就会腐败。
当我使用findSynonyms
方法开始给出具有余弦相似性NaN
的奇怪同义词时,在某种意义上是腐败的。
但是带有500万个句子的word2vec模型可以提供正确的输出。
以下是代码: -
val cleanedRDD = sqlContext.read.parquet(HDFS_URL + corpusPath).rdd.map(row => row.getAs[Seq[String]](0))
val word2Vec = new Word2Vec().setNumPartitions(100).setMinCount(3).setNumIterations(iteration).setVectorSize(200)
val word2VecModel = word2Vec.fit(cleanedRDD)
我尝试使用矢量大小100和200进行创建 任何建议都将被适用。