标签: apache-spark pyspark cluster-analysis probability-density som
我想以直方图的形式对不同的概率分布进行聚类。我有一个具有> 10 M观测值的数据集。一个观察结果有5个不同的直方图(> 100个特征)。聚类的目的是通过创建一个我可以代表初始数据集分布的密码本/原型来减少数据。
现在我不确定,什么是最好的方法。想法是:
您如何评价这些想法?他们可行吗?我是否正在忽略一种性能更高/更简单的解决方案? 任何提示将不胜感激!