我尝试将K-mean与高维数据集(CDR数据)结合使用。
集群后,我想用最具信息性的功能代表每个集群,这可以显示客户的独特/代表性特征那个集群。
例如,
群集1 :[高:call_duration],[低:number_of_friends],[高:call_at_night ]
群集2 :[低:call_duration],[高:use_promotion]
群集3 :[高:internet_usage]
我想知道......
问题1:如何找到可代表每个群集的信息功能? 问题2:如果有许多信息功能,如何衡量哪一个更具代表性?
另一个问题是“如何衡量价值是高还是低?”
我目前的解决方案是将z标准化应用于每个集群质心中的每个要素,然后我假设
问题3:这种测量是否有意义?请告诉我你的建议。
答案 0 :(得分:0)
训练决策树以区分群集。
或任何其他用于分类的特征选择方法,因为这现在是分类问题。