Question

我有一个以下格式的输入文件：

1, 4, 5, 0, 3
0, 4, 5, 1, 4
.....

我加载了文件并训练了Means并且现在想要使用KMeansModel中给出的预测函数，但是我得到了尺寸不匹配错误，我不确定如何去做调试。关于预测函数的输入似乎没有任何文档。

...代码

data = sc.textFile(join(movieLensHomeDir, "test.txt"))
ratings = data.map(lambda line: [float(x.rstrip().lstrip().split('\r\n')[0]) for x in line.split(",")])
model = KMeans.train(ratings, 15, maxIterations=15, runs=10, initializationMode="random")
labels = model.predict([0, 5, 3, 2, 4])

Answer 1

您可以尝试将“array”添加到model.predict命令中吗？例如

labels = model.predict((array([0, 5, 3, 2, 4]))

KMeans的文档可以在这里找到： http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.KMeansModel

使用Spark / MLLib Kmeans进行尺寸不匹配错误

1 个答案: