使用pyspark,我需要找到类似于KEEP (DENSE RANK LAST ORDER)
SQL命令的东西。使用groupBy
和agg
,我想提取与最小组相关联的其他列值。
例如,使用此df:
+---+---+---+
| a| b| c|
+---+---+---+
| 1| 2| 3|
| 4| 5| 6|
| 1| 8| 9|
+---+---+---+
我会表演:
import pyspark.sql.functions as sf
Df.groupBy('A').agg(sf.min('b')
提取列c
的正确方法是什么,以便获得以下数据帧。
+---+---+---+
| a| b| c|
+---+---+---+
| 1| 2| 3|
| 4| 5| 6|
+---+---+---+
如果可能的话,我希望远离SQL查询,寻找一种pythonic方法来实现它。