K-Means算法的数据规范化

时间:2015-09-22 05:58:22

标签: cluster-analysis normalization k-means

我希望使用K-Means算法对我的数据进行聚类,我的数据应该归一化我不知道哪种归一化方法对这种算法更好? (最小 - 最大或z变换或十进制或......)快速采矿者使用z变换方法归一化数据,但我如何使用快速采矿者实现最小 - 最大标准化?或哪种工具和方法更适合规范化数据?我应该检查一下我的数据是否需要规范化?怎么样?

1 个答案:

答案 0 :(得分:0)

正常化的正确方法取决于您的数据

根据经验:

  1. 如果所有轴都测量相同的东西,则归一化可能是有害的
  2. 如果轴具有不同的单位和非常不同的比例,则必须进行标准化(否则,您要比较苹果和橙子)。
  3. 如果您知道或假设某些属性比其他属性更重要,请考虑手动加权属性。
  4. 对于min-max或z-transformation:这取决于数据的分布。 如果您有异常值,则min-max无效