从DataFrame查找最大值/最小值

时间:2018-07-24 09:55:32

标签: apache-spark-sql

我将数据框作为joinedDataDF,并将列customerID和totalSell作为 + ------------ + --------- + | customer_id | totalSell | + ------------ + --------- + | 1 | 3000 | | 2 | 3000 | | 3 | 46000 | | 4 | 15000 | | 5 | 25000 | | 7 | 200 | | 8 | 200 | | 9 | 1100 | | 10 | 1900 | + ------------ + --------- +

我想查找最大销售量的客户详细信息。

我可以通过下面提到的不同方法来实现它。但请提出在实践和表现方面最好的方法。

1)joinedDataDF.orderBy($“ totalSell” .desc).first.toString()

2)sqlContext.sql(从joinedDataDFTbl中选择max(totalSell))

3)joinedData.rdd.sortBy(x => x.getLong(1),false).take(1)

4)joinData.agg(“ totalSell”->“ max”)

谢谢

0 个答案:

没有答案