应用错误收集

Spark数据帧排序不适用于Spark 1.6

时间：2017-05-23 07:45:27

标签： sorting hadoop apache-spark spark-dataframe bigdata

我们在集群环境中的Spark 1.6中对数据帧的数据进行排序时遇到了一些挑战。我们正在使用df.orderBy(userColumn, rankColumn)。当数据在一个分区中时，数据排序是正确的。一旦分区大小增加，数据帧排序就无法在集群环境中运行。我们尝试了Distribute by并按方法排序以及以下帖子：http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/。这也行不通。请建议。

0 个答案:

没有答案

应用程序不在群集环境中工作？
Spark 1.6
Spark 1.6 drop columns基于值
在spark 1.6
Spark数据帧排序不适用于Spark 1.6
Windows上的pyspark（从1.6升级到2.0.2）：sqlContext.read.format失败
Spark 1.6 Dataframe缓存无法正常工作
Spark sql 1.6
除了特定列Spark 1.6之外
--archives选项不会在pyspark 1.6环境中解压缩文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？