查找databricks错误中所有列的总和

时间:2019-05-21 20:39:52

标签: scala apache-spark

我是Scala的新手,我基本上想对数据集进行许多聚合。是否可以将它们全部组合在一起,还是我应该分别做一个(求和,最小值,最大值)?

这是我到目前为止尝试过的:

display(
  myDF
    .groupBy($"age","sex","cp","trestbps","chol")
    .sum()
)

它给出了以下错误消息:

  

错误:方法值组重载,并带有替代方法:

     

(col1:字符串,cols:   String *)org.apache.spark.sql.RelationalGroupedDataset

     

(cols:   org.apache.spark.sql.Column *)org.apache.spark.sql.RelationalGroupedDataset

     

无法应用于(org.apache.spark.sql.ColumnName,String,String,   字符串,字符串)

1 个答案:

答案 0 :(得分:0)

是否要整列的总和? 如果是这样

myDF.agg(sum(“列名”))。show()

您的问题很难解决。您可以使用.agg(sum(“ column name”),max(“ column name”))

来执行聚合