仅包含分类变量的大型数据集的聚类分析

时间:2019-05-30 15:14:58

标签: python cluster-analysis large-data

我已经承担了根据客户一起购买的产品将他们分类的任务。我的数据包含与每个客户相关的500,000行和8,000个变量(产品ID)。每个变量都是一个热编码矢量,用于显示客户是否购买了该产品。

我尝试使用MCA(多重对应算法)来减少数据的大小,然后使用k-means和dbscan进行聚类分析,但结果并不令人满意。

对具有高维的大型数据集进行聚类分析及其python实现有哪些合适的算法?

1 个答案:

答案 0 :(得分:0)

您应该使用的是频繁模式挖掘,而不是集群。

一键编码变量通常弊大于利。可以使用合适的聚类算法(例如分层,DBSCAN,但不是 k均值)对此类数据使用选择好的距离(在某些数据集上可能像汉明或Jaccard一样简单)。或者,尝试k模式。但是最有可能的是,频繁的项目集是对nsuvh数据的更有意义的分析。