Question

我是Scala的新手，我基本上想对数据集进行许多聚合。是否可以将它们全部组合在一起，还是我应该分别做一个（求和，最小值，最大值）？

这是我到目前为止尝试过的：

display(
  myDF
    .groupBy($"age","sex","cp","trestbps","chol")
    .sum()
)

它给出了以下错误消息：

错误：方法值组重载，并带有替代方法：

（col1：字符串，cols：   String *）org.apache.spark.sql.RelationalGroupedDataset

（cols：   org.apache.spark.sql.Column *）org.apache.spark.sql.RelationalGroupedDataset

无法应用于（org.apache.spark.sql.ColumnName，String，String，   字符串，字符串）

Answer 1

是否要整列的总和？如果是这样

myDF.agg（sum（“列名”））。show（）

您的问题很难解决。您可以使用.agg（sum（“ column name”），max（“ column name”））

来执行聚合

查找databricks错误中所有列的总和

1 个答案: