我应该在weka中使用哪个预处理过滤器来应用k意味着用于具有非定量但属于分类的属性的记录。例如,三个记录没有收入等级的定量属性,值为{低,中,高},已婚,值为{是,否},居住状态为{阿拉巴马州,阿拉斯加州,...,怀俄明州}。谢谢。
答案 0 :(得分:0)
很多人为此使用一个热门编码。
结果通常相当糟糕,因为k-means是为连续变量设计的。生成的聚类中心将不再是二进制的,并且可能不会很好地映射到分类值(这并不奇怪,因为k-means完全是关于意味着,但是“苹果的意思是什么” “,”“香蕉”和“橙色”)?
如果您改为寻找频繁项目集而不是k-means中心,通常会获得更有意义的结果。