应用错误收集

计算Spark DataFrame中每一列的内核密度

时间：2018-11-30 07:49:27

标签： apache-spark apache-spark-mllib

有没有一种方法可以计算DataFrame每列的KDE？

我有一个DataFrame，其中每一列代表一个功能的值。 Spark MLLib的KDE功能需要样本值的RDD[Double]。问题是我需要找到一种方法而不收集每一列的值，因为这会使程序变慢。

有人知道我该如何解决吗？遗憾的是，直到现在我的所有尝试都失败了。

1 个答案:

答案 0 :(得分：-1)

可能您可以使用示例函数（refer here）创建新的RDD，然后执行操作以获得最佳性能。