我偶然发现了一篇随意提到的旧论文摘录,
如果需要,我们可以使用KMeans作为断言的方法 数据集很嘈杂,从而证明我们的分类器工作正常 可以合理地预期。
在浏览互联网寻求解决方案之后,我找不到这种方法。如何才能做到这一点?如何修改此通用KMeans
代码以断言此数据集包含噪声?
代码摘自here
print(__doc__)
# Code source: Gael Varoqueux
# Modified for Documentation merge by Jaques Grobler
# License: BSD 3 clause
import numpy as np
import pylab as pl
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cluster import KMeans
from sklearn import datasets
np.random.seed(5)
centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()
X = iris.data
y = iris.target
estimators = {'k_means_iris_3': KMeans(n_clusters=3),
'k_means_iris_8': KMeans(n_clusters=8),
'k_means_iris_bad_init': KMeans(n_clusters=3, n_init=1,
init='random')}
fignum = 1
for name, est in estimators.iteritems():
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
pl.cla()
est.fit(X)
labels = est.labels_
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))
ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
fignum = fignum + 1
# Plot the ground truth
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
pl.cla()
for name, label in [('Setosa', 0),
('Versicolour', 1),
('Virginica', 2)]:
ax.text3D(X[y == label, 3].mean(),
X[y == label, 0].mean() + 1.5,
X[y == label, 2].mean(), name,
horizontalalignment='center',
bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)
ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
pl.show()
答案 0 :(得分:3)
K-means聚类的本质是将一组多维向量划分为紧密分组的分区,然后通过单个向量(a.k.a.centroid)表示每个分区(a.k.a. cluster)。完成此操作后,您可以计算拟合优度,即获得的质心表示原始矢量集的程度。这种拟合优度将取决于所选择的聚类/质心的数量,所使用的训练算法(例如LBG算法),选择初始质心的方法,用于计算向量之间距离的度量......当然还有统计学数据的属性(多维向量)。
执行聚类后,您可以使用拟合优度(或量化失真)对数据做出一些判断。例如,如果你有两个不同的数据集给出两个显着不同的拟合优度值(同时保持所有其他因素,特别是簇的数量,相同),你可以说具有更差拟合度的集合是更多"复杂",或许更多"嘈杂"。我将这些判断用于引用,因为它们是主观的(例如,你如何定义噪音?)并且受到训练算法和其他因素的强烈影响等。
另一个例子可能是使用" clean"来训练聚类模型。数据集。然后,使用相同的模型(即相同的质心)来聚类新的数据集。根据新数据集的拟合优度与原始干净训练数据集的拟合优度的不同,您可以对" noise"做出一些判断。在新数据集中。
答案 1 :(得分:0)
请注意,即使给定数据是均匀分布的噪声,K-means也可以始终对数据进行分区。要评估给定数据是“有意义”还是仅是噪声,您可能需要定义评估标准。最初开发为estimate the number of clusters in a data的差距统计数据可用于量化拟合优度(如答案中提到的@Petr)。此外,您可以尝试使用给定数据评估聚类的稳定性。检查Dr. Christian Hennig's page关于聚类鲁棒性的一些研究。
无论您选择哪种标准,都经常使用bootstraping重新取样所获得的数据。使用引导程序,可以使用不同的簇编号获取许多其他统计信息,例如silhouette,cophenetic correlation。这些都可以帮助您判断您的数据是否只是噪音。