进行聚类后,我得到一个存储所有聚类标签的对象,如下所示:
clusterer.labels_
以上通常是列表或数组。然后,我总是像这样将标签分配给原始的熊猫数据框(数据集):
df['cluster_lables] = cluster.labels_
最后,我假设cluster.labels_
的每个元素都对应于原始数据集的每一行,这种假设正确吗?例如,在上面的列创建中,我最终得到这样的结果:
ColA ColB cluster_labels
1 3 -1
2 4 2
...
89 90 45
答案 0 :(得分:1)
从总体上讲,您是对的。我以前使用过的群集类型是KMeans群集(可以在https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html处找到),但我不能保证它们都能那样工作。将新列添加到数据框将按您认为的方式工作。