客户数据中的集群类别购买

时间:2017-11-13 16:51:38

标签: cluster-analysis k-means svd

我正在尝试根据支出,订单频率,订单广度以及他们在每个类别中的购买百分比(大约20个)对一组客户进行聚类。

这可能是一个简单的答案,但我无法弄清楚我是否应该标准化(减去平均值并除以sd)%category buy列。当我不标准化时,我可以得到大约90%的方差在4-5个主成分(使用SVD)中解释,但是当我标准化每个列时,我只得到相同数量的主成分的40%左右。我担心的是,因为每列都是相关的,所以我通过标准化删除了这种关系。与此同时,我担心不标准化会导致我标准化的数据中的其他变量出现问题。

我认为如果其他人尝试以这种方式进行聚类,他们将面临类似的问题,但我似乎找不到一个因此可能是因为我不了解情况。感谢提前澄清!

克里斯,

1 个答案:

答案 0 :(得分:0)

百分比规模具有明确的范围和良好的属性。

通过尝试扩展这些功能,通常会让事情变得更糟。