k表示混合分类和数值的聚类

时间:2015-05-12 09:57:45

标签: apache-spark cluster-analysis data-mining k-means spark-streaming

请帮助

我想提供一个简单的框架,用于识别和清理上下文大数据中的重复数据。这种预处理必须实时进行(流式传输)。

我们通过file.csv重复发布我们的数据库,此文件包含患者(医疗)记录而不会重复。

我们希望通过对混合分类和数值使用增量并行k均值聚类将file.csv聚为4个聚类,每个聚类包含类似记录。

每当(数据流)结构化数据到来(记录)时,我们必须将它与集群代表(M1,M2,M3,M4)进行比较............. 如果数据不代表重复数据,我们将其保存在file.csv中,如果它表示重复数据,则不保存在file.csv中。

1)所以我的案例中有效的工具是什么? 2)我如何使用Mlib(spark)或mahout(hadoop)来表示混合分类和数值的聚类。 3)增量聚类是什么意思,流聚类是一样的!

1 个答案:

答案 0 :(得分:1)

正如已经在SO / CV上已经注意到的那样:

k-means计算表示

除非您可以为分类数据定义最小二乘均值(在实践中仍然有用),否则对此类数据使用k-means不起作用。

当然,你可以做一个热门编码和类似的黑客攻击,但是他们的结果只会毫无意义。 “最小二乘”对二进制输入数据来说不是一个有意义的目标。

KMeans dealing with categorical variable

Why am I not getting points around clusers in this kmeans implementation?

https://stats.stackexchange.com/questions/58910/kmeans-whether-to-standardise-can-you-use-categorical-variables-is-cluster-3