Spark数据帧排序不适用于Spark 1.6

时间:2017-05-23 07:45:27

标签: sorting hadoop apache-spark spark-dataframe bigdata

我们在集群环境中的Spark 1.6中对数据帧的数据进行排序时遇到了一些挑战。我们正在使用df.orderBy(userColumn, rankColumn)。当数据在一个分区中时,数据排序是正确的。一旦分区大小增加,数据帧排序就无法在集群环境中运行。我们尝试了Distribute by并按方法排序以及以下帖子:http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/。这也行不通。请建议。

0 个答案:

没有答案