spark java中的多个排序输出

时间:2018-05-31 05:44:27

标签: java apache-spark apache-spark-sql apache-spark-dataset

我正在尝试使用spark

中的数据集来计算多个排序输出

输入: -

city1 A1

city2 A2

City1 C1

city2 B2

city1 B1

city2 C2

我希望首先根据列对输出进行排序,然后将每个已排序的输出存储在单个文件中

输出: -

File1中:

city1 A1

city1 B1

city1 c1

类似地,file2将包含c2

的数据

1 个答案:

答案 0 :(得分:1)

显而易见的方法是使用targetsdkversion。以下代码(在Scala中)将为每个城市生成一个包含所需数据的文件夹。

partitonBy

注意,为了拥有" city"在输出文件中的列中,我们将另一个具有相同值的列(city-part)添加到数据框并将其用于分区。