聚类之前的归一化

时间:2019-12-30 07:32:41

标签: python cluster-analysis normalization k-means categorical-data

如果我们有使用假人和标签编码将分类数据转换为数值的分类数据,是否必须在聚类之前对数据进行规范化?如果是,那么在这种情况下使用哪种最合适的规范化技术?

1 个答案:

答案 0 :(得分:2)

没有必要为分类值标准化数据。完成了功能的标准化/标准化,以使所有功能达到相似的规模。

如果您使用k个最近的邻居,那么它只会查看样本之间的相似性,因此在这种情况下,更大或更小的关系不会对其造成影响。

最后,归一化/标准化不会影响值的顺序。因此,如果x1大于x2,则在归一化或标准化之后,它们两个都可能具有不同的值,但是它们之间的关系不会改变。

为澄清起见,请参考以下答案: https://stats.stackexchange.com/questions/399430/does-categorical-variable-need-normalization-standardization