得到最近的质心点,scikit-learn?

时间:2014-02-09 15:24:10

标签: python scikit-learn

我正在使用K-means来解决群集问题。我试图找到最接近质心的数据点,我认为它被称为medoid。

有没有办法在scikit-learn中执行此操作?

3 个答案:

答案 0 :(得分:16)

这不是medoid,但这是你可以尝试的东西:

>>> import numpy as np
>>> from sklearn.cluster import KMeans
>>> from sklearn.metrics import pairwise_distances_argmin_min
>>> X = np.random.randn(10, 4)
>>> km = KMeans(n_clusters=2).fit(X)
>>> closest, _ = pairwise_distances_argmin_min(km.cluster_centers_, X)
>>> closest
array([0, 8])

数组closest包含X中距离每个质心最近的点的索引。因此X[0]X到质心0的最近点,X[8]最接近质心1。

答案 1 :(得分:2)

我尝试了上面的答案,但它给了我重复的结果。 无论聚类结果如何,上面都会找到最接近的数据点。因此,它可以返回同一群集的副本。

如果您想在中心指示的同一群集中找到最接近的数据,请尝试此操作。

此解决方案提供的数据点来自所有不同的聚类,并且返回的数据点的数量与聚类的数量相同。

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin_min

# assume the total number of data is 100
all_data = [ i for i in range(100) ]
tf_matrix = numpy.random.random((100, 100))

# set your own number of clusters
num_clusters = 2

m_km = KMeans(n_clusters=num_clusters)  
m_km.fit(tf_matrix)
m_clusters = m_km.labels_.tolist()

centers = np.array(m_km.cluster_centers_)

clostest_data = []
for i in range(num_clusters):
    center_vec = centers[i]
    data_idx_within_i_cluster = [ idx for idx, clu_num in enumerate(m_clusters) if clu_num == i ]

    one_cluster_tf_matrix = np.zeros( (  len(pmids_idx_in_i_cluster) , centers.shape[1] ) )
    for row_num, data_idx in enumerate(data_idx_in_i_cluster):
        one_row = tf_matrix[data_idx]
        one_cluster_tf_matrix[row_num] = one_row

    closest, _ = pairwise_distances_argmin_min(center_vec, one_cluster_tf_matrix)
    closest_idx_in_one_cluster_tf_matrix = closest[0]
    closest_data_row_num = data_idx_within_i_cluster[closest_idx_in_one_cluster_tf_matrix]
    data_id = all_data[closest_data_row_num]

    closest_data.append(data_id)

closest_data = list(set(closest_data))

assert len(closest_data) == num_clusters

答案 2 :(得分:2)

您要实现的基本上是矢量量化,但是要“反向”进行。 Scipy 为此具有非常优化的功能,比提到的其他方法要快得多。输出与 pairwise_distances_argmin_min()相同。

    from scipy.cluster.vq import vq

    # centroids: N-dimensional array with your centroids
    # points:    N-dimensional array with your data points

    closest, distances = vq(centroids, points)

当您使用非常大的数组执行它时,最大的不同是,我使用100000+点和65000+个质心的数组执行它,该方法比 pairwise_distances_argmin_min()快4倍。 scikit ,如下所示:

     start_time = time.time()
     cl2, dst2 = vq(centroids, points)
     print("--- %s seconds ---" % (time.time() - start_time))
     --- 32.13545227050781 seconds ---

     start_time = time.time()
     cl2, dst2 = pairwise_distances_argmin_min(centroids, points)
     print("--- %s seconds ---" % (time.time() - start_time))
     --- 131.21064710617065 seconds ---