我有一个包含以下格式数据的数据集:
(泰兰德,1,0,1)
我想根据第一个元素运行reduce。第二,第三和第四我只想总结。
我对scala / spark很新,并且可能领先于自己,但有些人会受到赞赏。
由于
答案 0 :(得分:1)
只需将其转换为Dataset
:
val rdd: RDD[(String, Int, Int, Int)] = ???
val ds: Dataset[(String, Int, Int, Int)] = spark.createDataset(rdd)
和聚合:
ds.groupBy("_1").sum()