标签: apache-spark apache-spark-mllib
有没有一种方法可以计算DataFrame每列的KDE?
我有一个DataFrame,其中每一列代表一个功能的值。 Spark MLLib的KDE功能需要样本值的RDD[Double]。问题是我需要找到一种方法而不收集每一列的值,因为这会使程序变慢。
RDD[Double]
有人知道我该如何解决吗?遗憾的是,直到现在我的所有尝试都失败了。
答案 0 :(得分:-1)
可能您可以使用示例函数(refer here)创建新的RDD,然后执行操作以获得最佳性能。