用于聚类分类数据的最合适的机器学习算法系列是什么?假设我们有以下数据集:
V1 V2 V3 V4
"v1a" "v2b" "v3b" "v4c"
"v1b" "v2f" "v3a" "v4c"
"v1a" "v2e" "v3b" "v4c"
有没有办法以某种方式聚集它们?我特别感兴趣的是通过Apache Mahout这样做。任何提示\想法都非常感谢。
答案 0 :(得分:0)
您需要先回答 的问题是:
什么是群集?
显然,许多现有的聚类定义(通过欧几里德距离小于epsilon的步骤连接)等都没有用。
有一些技巧可以对这些数据进行矢量化,这样你就可以在其上运行k-means。
但通常情况下,结果将无用,因为人们没有考虑他们在做什么首先。
首先尝试找出你想做的事情,然后寻找工具来做到这一点。