包含连续变量和分类变量的数据集的聚类分析

时间:2019-07-23 12:55:25

标签: pyspark cluster-analysis apache-spark-mllib

我需要对包含1500万个人记录和150个变量的数据集进行聚类分析。我正在使用python。最初,我想到使用pyspark的mllib包,但显然我的数据集包含分类变量和连续变量。 K-means将无法解决此问题,我需要类似k-mode或k-prototypes的工具,R(sparkR软件包)中提供了类似的功能。

0 个答案:

没有答案