我有一个数据集,我想将其聚类,例如考虑以下内容:
data = array([0.0,0.0, 1.0,1.0, 9.0,8.0, 8.0,9.0]).reshape(4, 2)
聚类它,首先我需要训练一个模型:
model = KMeans.train(sc.parallelize(data), 2, maxIterations=10,initializationMode="random",seed=50, initializationSteps=5, epsilon=1e-4)
然后找到我必须为我的数据集中的每个数组执行以下操作的集群:
model.predict(array([0.0, 0.0]))
我的问题是,有什么方法可以在培训阶段找到集群吗?
如果我不能使用MLlib,你知道其他任何可以更快找到集群成员的库吗?