为什么功能区分群集?

时间:2017-12-20 19:26:45

标签: machine-learning cluster-analysis data-mining unsupervised-learning

让我们假设我们正在尝试在群集任务中对每个给定群集的数据集的每个特征的重要性进行排名。我们应该在特征中测量哪些特征,以便将其视为表征给定集群的好处?

我正在寻找这些功能的更具分析性的特征。例如,如果要素f在整个数据集中具有较高的标准差,但在群集c中具有较小的标准差,这是否意味着此特征对于区分群集c很重要?

1 个答案:

答案 0 :(得分:1)

您可以在这里使用两种方法:

  • 功能选择方法是删除所述功能并重做群集并查看它是否具有强大效果,如果没有,您可以说此功能对于群集任务是不必要的。此方法的缺点是为数据集中的每个要素子集运行聚类过程所需的时间。
  • 统计方法是将数据分成两组:来自群集的样本和其余样本。然后你会问两个种群比较时的特征值有多么不同。取决于此功能的分发,您可以为此任务选择KS testt testchi-squared test或任何其他测试,以比较两个样本的分布。