标签: cluster-computing k-means one-hot-encoding
在对3个类别变量进行编码之后,我得到了一个DataFrame,其中包含3000列,每列的值为0或1。 此DataFrame还具有本机数字列(归一化为0到1)。
在使用聚类算法(K-Means)之前,将权重因子应用于编码后的列是否有意义:
(伪代码)
df = hstack(10 * A,200 * B,2790 * C)
为了使这些类别具有相同的“强度”?
我观察到这样做时轮廓得分要好得多。