单个要素的不同汇总指标可以用作k均值聚类的要素吗?

时间:2019-09-12 21:05:47

标签: machine-learning cluster-analysis k-means feature-selection unsupervised-learning

我有一个场景,我想了解客户的行为模式,并将其分为电子商务平台的不同细分/集群。我选择无监督的机器学习算法:k-均值聚类来完成此任务。

我有可用的采购订单数据。

在准备数据集的过程中,我有一个问题:可以将某个功能的不同摘要指标(如(Sum, Avg, Min, Max, Standard Deviation))考虑为不同的功能。还是我应该仅采用一项功能的摘要指标(例如,客户在多个订单上的总交易金额之和)。

effect how the functioning of the k-means algorithm是否有效?

在下面提到的以下两种数据格式中,我可以优化算法以得出良好的结果:

格式1:

  

客户编号| Total.TransactionAmount |最小交易金额|   最大交易金额|平均交易金额|   StdDev.TransactionAmount | TotalNo.ofTransactions等...

格式2:

  

客户编号| Total.TransactionAmount |总交易数等   在...上,

(注意:将“ |”视为特征分隔符) (注意:客户ID不会作为算法输入)

1 个答案:

答案 0 :(得分:0)

是的,但是,这是一个好主意几乎是显而易见的。

这些值将是相关的,因此这会使结果失真。可能会使您已经遇到的所有问题(例如,值不是线性的,具有相同的重要性,因此需要权重且具有相似的大小)变得更糟。

借助“交易金额”,“交易数量”等功能,您已经遇到了一些非常糟糕的扩展问题,因此,为什么还要添加更多呢?

写下目标函数很简单。将您的特征放入等式中,并尝试了解您正在优化的内容-这真的是您所需要的吗?还是只需要一些随机结果?