如何聚类分类变量?

时间:2013-02-25 12:52:11

标签: cluster-analysis mahout

用于聚类分类数据的最合适的机器学习算法系列是什么?假设我们有以下数据集:

V1        V2        V3        V4
"v1a"     "v2b"     "v3b"     "v4c"
"v1b"     "v2f"     "v3a"     "v4c"
"v1a"     "v2e"     "v3b"     "v4c"

有没有办法以某种方式聚集它们?我特别感兴趣的是通过Apache Mahout这样做。任何提示\想法都非常感谢。

1 个答案:

答案 0 :(得分:0)

您需要先回答 的问题是:

什么是群集?

显然,许多现有的聚类定义(通过欧几里德距离小于epsilon的步骤连接)等都没有用。

有一些技巧可以对这些数据进行矢量化,这样你就可以在其上运行k-means。

但通常情况下,结果将无用,因为人们没有考虑他们在做什么首先

首先尝试找出你想做的事情,然后寻找工具来做到这一点。