model.getVectors()。keys()是否会返回模型中的所有键

时间:2018-01-02 13:55:29

标签: pyspark apache-spark-mllib word2vec

以下是示例代码。我试图获取newfile.txt中所有单词的向量表示(文件有新闻文章)。想知道model.getVectors()。keys()是否输出所有键(文件中的不同单词)或是否将输出限制为特定数字。

目前我只得到几个字作为关键,虽然我的输入有很多。它是如何工作的?

doc = sc.textFile('newfile.txt').map(lambda line: line.split(" "))

model = Word2Vec().fit(doc)

model.getVectors().keys()

1 个答案:

答案 0 :(得分:0)

我找到答案,由于此参数对模型setMinCount()未列出所有键(单词),默认值为5

来自documentation

感谢您的帮助!