如何减少元组的数据集

时间:2017-12-27 20:43:27

标签: scala apache-spark

我有一个包含以下格式数据的数据集:

(泰兰德,1,0,1)

我想根据第一个元素运行reduce。第二,第三和第四我只想总结。

我对scala / spark很新,并且可能领先于自己,但有些人会受到赞赏。

由于

1 个答案:

答案 0 :(得分:1)

只需将其转换为Dataset

即可
val rdd: RDD[(String, Int, Int, Int)] = ???
val ds: Dataset[(String, Int, Int, Int)] = spark.createDataset(rdd)

和聚合:

ds.groupBy("_1").sum()