应用错误收集

我有一个场景，我想了解客户的行为模式，并将其分为电子商务平台的不同细分/集群。我选择无监督的机器学习算法：k-均值聚类来完成此任务。

我有可用的采购订单数据。

在准备数据集的过程中，我有一个问题：可以将某个功能的不同摘要指标（如(Sum, Avg, Min, Max, Standard Deviation)）考虑为不同的功能。还是我应该仅采用一项功能的摘要指标（例如，客户在多个订单上的总交易金额之和）。

此effect how the functioning of the k-means algorithm是否有效？

在下面提到的以下两种数据格式中，我可以优化算法以得出良好的结果：

格式1：

客户编号| Total.TransactionAmount |最小交易金额| 最大交易金额|平均交易金额| StdDev.TransactionAmount | TotalNo.ofTransactions等...

格式2：

客户编号| Total.TransactionAmount |总交易数等在...上，

（注意：将“ |”视为特征分隔符）（注意：客户ID不会作为算法输入）