我有一个csv文件,如下所示:
时间(秒)测量1测量2测量3 .....测量
0
0.25
0.50
0.75
1
...
3600
我希望在此文件中创建自定义分区,以使分区如下所示:
Partition1
时间(以秒为单位)measure1
分区2
时间(以秒为单位)measure2
...
Partitionn
时间(以秒为单位)测量
我想这样做,因为我想计算每次测量的平均值,中位数等聚合。
我的想法是,如果我使用mapPartitions来执行操作,例如在一个分区上,它将在所有分区的parellel中发生。
我希望避免使用groupBy columnn值,因为它会导致重排操作
有没有办法实现这个目标?
谢谢。
此致
Vinay Joglekar
答案 0 :(得分:0)
我会这样做: