标签: pyspark cluster-analysis apache-spark-mllib
我需要对包含1500万个人记录和150个变量的数据集进行聚类分析。我正在使用python。最初,我想到使用pyspark的mllib包,但显然我的数据集包含分类变量和连续变量。 K-means将无法解决此问题,我需要类似k-mode或k-prototypes的工具,R(sparkR软件包)中提供了类似的功能。