在OneHot编码之后应用权重因子是否有意义?

时间:2018-10-29 17:05:53

标签: cluster-computing k-means one-hot-encoding

在对3个类别变量进行编码之后,我得到了一个DataFrame,其中包含3000列,每列的值为0或1。
此DataFrame还具有本机数字列(归一化为0到1)。

  • 分类变量A在OneHotEncoding后出现10列
  • 分类变量B在OneHotEncoding后产生200列
  • 分类变量C在OneHotEncoding之后产生2790列

在使用聚类算法(K-Means)之前,将权重因子应用于编码后的列是否有意义:

(伪代码)

df = hstack(10 * A,200 * B,2790 * C)

为了使这些类别具有相同的“强度”?

我观察到这样做时轮廓得分要好得多。

0 个答案:

没有答案