我有一个场景,我想了解客户的行为模式,并将其分为电子商务平台的不同细分/集群。我选择无监督的机器学习算法:k-均值聚类来完成此任务。
我有可用的采购订单数据。
在准备数据集的过程中,我有一个问题:可以将某个功能的不同摘要指标(如(Sum, Avg, Min, Max, Standard Deviation)
)考虑为不同的功能。还是我应该仅采用一项功能的摘要指标(例如,客户在多个订单上的总交易金额之和)。
此effect how the functioning of the k-means algorithm
是否有效?
在下面提到的以下两种数据格式中,我可以优化算法以得出良好的结果:
格式1:
客户编号| Total.TransactionAmount |最小交易金额| 最大交易金额|平均交易金额| StdDev.TransactionAmount | TotalNo.ofTransactions等...
格式2:
客户编号| Total.TransactionAmount |总交易数等 在...上,
(注意:将“ |”视为特征分隔符) (注意:客户ID不会作为算法输入)
答案 0 :(得分:0)
是的,但是,这是一个好主意几乎是显而易见的。
这些值将是相关的,因此这会使结果失真。可能会使您已经遇到的所有问题(例如,值不是线性的,具有相同的重要性,因此需要权重且具有相似的大小)变得更糟。
借助“交易金额”,“交易数量”等功能,您已经遇到了一些非常糟糕的扩展问题,因此,为什么还要添加更多呢?
写下目标函数很简单。将您的特征放入等式中,并尝试了解您正在优化的内容-这真的是您所需要的吗?还是只需要一些随机结果?