Question

我有一个包含以下格式数据的数据集：

（泰兰德，1,0,1）

我想根据第一个元素运行reduce。第二，第三和第四我只想总结。

我对scala / spark很新，并且可能领先于自己，但有些人会受到赞赏。

由于

Answer 1

只需将其转换为Dataset：

即可

val rdd: RDD[(String, Int, Int, Int)] = ???
val ds: Dataset[(String, Int, Int, Int)] = spark.createDataset(rdd)

和聚合：

ds.groupBy("_1").sum()