请帮助
我想提供一个简单的框架,用于识别和清理上下文大数据中的重复数据。这种预处理必须实时进行(流式传输)。
我们通过file.csv重复发布我们的数据库,此文件包含患者(医疗)记录而不会重复。
我们希望通过对混合分类和数值使用增量并行k均值聚类将file.csv聚为4个聚类,每个聚类包含类似记录。
每当(数据流)结构化数据到来(记录)时,我们必须将它与集群代表(M1,M2,M3,M4)进行比较............. 如果数据不代表重复数据,我们将其保存在file.csv中,如果它表示重复数据,则不保存在file.csv中。
1)所以我的案例中有效的工具是什么? 2)我如何使用Mlib(spark)或mahout(hadoop)来表示混合分类和数值的聚类。 3)增量聚类是什么意思,流聚类是一样的!
答案 0 :(得分:1)
正如已经在SO / CV上已经注意到的那样:
除非您可以为分类数据定义最小二乘均值(在实践中仍然有用),否则对此类数据使用k-means不起作用。
当然,你可以做一个热门编码和类似的黑客攻击,但是他们的结果只会毫无意义。 “最小二乘”对二进制输入数据来说不是一个有意义的目标。
KMeans dealing with categorical variable
Why am I not getting points around clusers in this kmeans implementation?