标签: sorting hadoop apache-spark spark-dataframe bigdata
我们在集群环境中的Spark 1.6中对数据帧的数据进行排序时遇到了一些挑战。我们正在使用df.orderBy(userColumn, rankColumn)。当数据在一个分区中时,数据排序是正确的。一旦分区大小增加,数据帧排序就无法在集群环境中运行。我们尝试了Distribute by并按方法排序以及以下帖子:http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/。这也行不通。请建议。
df.orderBy(userColumn, rankColumn)