SPARK获取数据框所有列的均值

时间:2018-06-27 22:02:33

标签: scala apache-spark

我正在寻找反馈,以改进我现有的解决方案(如下)。我正在尝试计算数据框中每列的均值,并将其作为键值对存储在HashMap中。因此,列名成为键,其均值成为值。我要执行的步骤如下

  1. 使用SPARK加载CSV文件
  2. 在数据框上进行描述
  3. 识别列列表
  4. 将列遍历     每列执行以下步骤

    for(col_name <- _listOfColumn.iterator){ 
          var describeDFTemp = describeDF.select(col_name).filter("summary == 'mean'").collectAsList().get(0).get(0)
          Logger.printMessage("Column:" + col_name+ " Mean:"+describeDFTemp.toString())
    _dataDistribution.update(col_name,describeDFTemp.toString.toFloat)}
    

它生成输出,但是我担心它可能不是解决问题的最有效方法。

我希望有人可以帮助我完善解决方案,使其更加高效。

谢谢!

0 个答案:

没有答案