Weka Simple K意味着处理名义属性

时间:2015-02-08 17:25:14

标签: cluster-analysis weka k-means

我试图理解Weka中的K-means处理名义属性是多么简单,以及为什么它在处理这些属性时效率不高。

我读到它计算这些属性的模式。我想知道如何计算相似度。

让我们举一个例子: 考虑具有3个数字和一个nomimal属性的数据集。 名义属性有3个值:A,B和C.

Instance1的值为A,Instance2的值为B,Instance3的值为A. 在这种情况下,Instance1可能更类似于Instance3(当然,取决于其他数字属性)。在这种情况下,简单的K-means如何工作?

跟进: 如果名义属性有更多(10)个可能值,该怎么办?

1 个答案:

答案 0 :(得分:0)

您可以尝试将其转换为二元功能,对于每个这样的标称属性,例如has_A, has_B, has_C。然后,如果你缩放它i1和i3将更接近,因为该属性的平均值将高于0.5(重新举例) - i2将更加突出。

如果它有更多,那么您只需为每个可能的值添加更多二进制功能。基本上你只需转动每个名义属性。