使用Spark / MLLib Kmeans进行尺寸不匹配错误

时间:2016-03-23 04:26:40

标签: python apache-spark apache-spark-mllib

我有一个以下格式的输入文件:

1, 4, 5, 0, 3
0, 4, 5, 1, 4
.....

我加载了文件并训练了Means并且现在想要使用KMeansModel中给出的预测函数,但是我得到了尺寸不匹配错误,我不确定如何去做调试。关于预测函数的输入似乎没有任何文档。

...代码

data = sc.textFile(join(movieLensHomeDir, "test.txt"))
ratings = data.map(lambda line: [float(x.rstrip().lstrip().split('\r\n')[0]) for x in line.split(",")])
model = KMeans.train(ratings, 15, maxIterations=15, runs=10, initializationMode="random")
labels = model.predict([0, 5, 3, 2, 4])

1 个答案:

答案 0 :(得分:0)

您可以尝试将“array”添加到model.predict命令中吗? 例如

labels = model.predict((array([0, 5, 3, 2, 4]))

KMeans的文档可以在这里找到: http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.KMeansModel