我正在寻找反馈,以改进我现有的解决方案(如下)。我正在尝试计算数据框中每列的均值,并将其作为键值对存储在HashMap中。因此,列名成为键,其均值成为值。我要执行的步骤如下
将列遍历 每列执行以下步骤
for(col_name <- _listOfColumn.iterator){
var describeDFTemp = describeDF.select(col_name).filter("summary == 'mean'").collectAsList().get(0).get(0)
Logger.printMessage("Column:" + col_name+ " Mean:"+describeDFTemp.toString())
_dataDistribution.update(col_name,describeDFTemp.toString.toFloat)}
它生成输出,但是我担心它可能不是解决问题的最有效方法。
我希望有人可以帮助我完善解决方案,使其更加高效。
谢谢!