我是Scala的新手,我基本上想对数据集进行许多聚合。是否可以将它们全部组合在一起,还是我应该分别做一个(求和,最小值,最大值)?
这是我到目前为止尝试过的:
display(
myDF
.groupBy($"age","sex","cp","trestbps","chol")
.sum()
)
它给出了以下错误消息:
错误:方法值组重载,并带有替代方法:
(col1:字符串,cols: String *)org.apache.spark.sql.RelationalGroupedDataset
(cols: org.apache.spark.sql.Column *)org.apache.spark.sql.RelationalGroupedDataset
无法应用于(org.apache.spark.sql.ColumnName,String,String, 字符串,字符串)
答案 0 :(得分:0)
是否要整列的总和? 如果是这样
myDF.agg(sum(“列名”))。show()
您的问题很难解决。您可以使用.agg(sum(“ column name”),max(“ column name”))
来执行聚合