应用错误收集

spark java中的多个排序输出

时间：2018-05-31 05:44:27

标签： java apache-spark apache-spark-sql apache-spark-dataset

我正在尝试使用spark

中的数据集来计算多个排序输出

输入： -

city1 A1

city2 A2

City1 C1

city2 B2

city1 B1

city2 C2

我希望首先根据列对输出进行排序，然后将每个已排序的输出存储在单个文件中

输出： -

File1中：

city1 A1

city1 B1

city1 c1

类似地，file2将包含c2

的数据

1 个答案:

答案 0 :(得分：1)

显而易见的方法是使用targetsdkversion。以下代码（在Scala中）将为每个城市生成一个包含所需数据的文件夹。

partitonBy

注意，为了拥有＆＃34; city＆＃34;在输出文件中的列中，我们将另一个具有相同值的列（city-part）添加到数据框并将其用于分区。