应用错误收集

在OneHot编码之后应用权重因子是否有意义？

时间：2018-10-29 17:05:53

标签： cluster-computing k-means one-hot-encoding

在对3个类别变量进行编码之后，我得到了一个DataFrame，其中包含3000列，每列的值为0或1。
此DataFrame还具有本机数字列（归一化为0到1）。

分类变量A在OneHotEncoding后出现10列
分类变量B在OneHotEncoding后产生200列
分类变量C在OneHotEncoding之后产生2790列

在使用聚类算法（K-Means）之前，将权重因子应用于编码后的列是否有意义：

（伪代码）

df = hstack（10 * A，200 * B，2790 * C）

为了使这些类别具有相同的“强度”？

我观察到这样做时轮廓得分要好得多。

0 个答案:

没有答案