应用错误收集

我想以直方图的形式对不同的概率分布进行聚类。我有一个具有> 10 M观测值的数据集。一个观察结果有5个不同的直方图（> 100个特征）。聚类的目的是通过创建一个我可以代表初始数据集分布的密码本/原型来减少数据。

现在我不确定，什么是最好的方法。想法是：

使用具有欧几里得距离的spark ml的常规k均值算法。
尝试对火花上的k均值实施不同的距离度量（例如Kullback Leibler，Jennsen Shannon）（https://github.com/derrickburns/generalized-kmeans-clustering或http://www.scalaformachinelearning.com/2015/12/kullback-leibler-divergence-on-apache.html）
在Spark上实施SOM以使用自定义距离函数对分布进行聚类（不确定是否可以对较大的数据集进行此操作。是否可以在Spark上创建自己的算法，该算法以增量方式执行但需要合并每个步骤都有结果吗？）

您如何评价这些想法？他们可行吗？我是否正在忽略一种性能更高/更简单的解决方案？任何提示将不胜感激！