PYSPARK:如何更有效地集群?

时间:2017-11-20 20:28:02

标签: apache-spark machine-learning pyspark

我有一个数据集,我想将其聚类,例如考虑以下内容:

data = array([0.0,0.0, 1.0,1.0, 9.0,8.0, 8.0,9.0]).reshape(4, 2)

聚类它,首先我需要训练一个模型:

model = KMeans.train(sc.parallelize(data), 2, maxIterations=10,initializationMode="random",seed=50, initializationSteps=5, epsilon=1e-4)

然后找到我必须为我的数据集中的每个数组执行以下操作的集群:

model.predict(array([0.0, 0.0]))

我的问题是,有什么方法可以在培训阶段找到集群吗?

如果我不能使用MLlib,你知道其他任何可以更快找到集群成员的库吗?

0 个答案:

没有答案