提取与最小pyspark相关联的多个列

时间:2018-02-05 17:08:18

标签: apache-spark pyspark spark-dataframe

使用pyspark,我需要找到类似于KEEP (DENSE RANK LAST ORDER) SQL命令的东西。使用groupByagg,我想提取与最小组相关联的其他列值。

例如,使用此df:

+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
|  1|  8|  9|
+---+---+---+

我会表演:

import pyspark.sql.functions as sf 
Df.groupBy('A').agg(sf.min('b')

提取列c的正确方法是什么,以便获得以下数据帧。

+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
+---+---+---+

如果可能的话,我希望远离SQL查询,寻找一种pythonic方法来实现它。

0 个答案:

没有答案