我正在尝试使用spark
中的数据集来计算多个排序输出输入: -
city1 A1
city2 A2
City1 C1
city2 B2
city1 B1
city2 C2
我希望首先根据列对输出进行排序,然后将每个已排序的输出存储在单个文件中
输出: -
File1中:
city1 A1
city1 B1
city1 c1
类似地,file2将包含c2
的数据答案 0 :(得分:1)
显而易见的方法是使用targetsdkversion
。以下代码(在Scala中)将为每个城市生成一个包含所需数据的文件夹。
partitonBy
注意,为了拥有" city"在输出文件中的列中,我们将另一个具有相同值的列(city-part)添加到数据框并将其用于分区。