如何在进行K均值聚类后找到每个聚类中最具代表性/区分的特征?

时间:2017-05-09 17:19:42

标签: cluster-analysis k-means

我尝试将K-mean与高维数据集(CDR数据)结合使用。

集群后,我想用最具信息性的功能代表每个集群,这可以显示客户的独特/代表性特征那个集群。

例如,

  

群集1 :[:call_duration],[:number_of_friends],[:call_at_night ]

     

群集2 :[:call_duration],[:use_promotion]

     

群集3 :[:internet_usage]

我想知道......

  

问题1:如何找到可代表每个群集的信息功能?   问题2:如果有许多信息功能,如何衡量哪一个更具代表性?

另一个问题是“如何衡量价值是高还是低?”

我目前的解决方案是将z标准化应用于每个集群质心中的每个要素,然后我假设

  • <-2σ>2σ是异常值
  • ( - 2σ至-1σ)(1σ至2σ)为低/高
  • -1σ至1σ为中等
  

问题3:这种测量是否有意义?请告诉我你的建议。

1 个答案:

答案 0 :(得分:0)

训练决策树以区分群集。

或任何其他用于分类的特征选择方法,因为这现在是分类问题。