Pyspark ---添加每列值的新列

时间:2016-12-09 00:01:57

标签: apache-spark dataframe group-by pyspark

假设我有以下数据集:

a | b   
1 | 0.4 
1 | 0.8 
1 | 0.5 
2 | 0.4
2 | 0.1

我想添加一个名为“label”的新列,其中为 a 中的每组值本地确定值。 a 组中 b 的最高值标记为1,其他所有标记为0。

输出如下:

a | b   | label
1 | 0.4 | 0
1 | 0.8 | 1
1 | 0.5 | 0
2 | 0.4 | 1
2 | 0.1 | 0

如何使用PySpark有效地完成这项工作?

1 个答案:

答案 0 :(得分:4)

您可以使用窗口功能执行此操作。首先,你需要一些进口产品:

from pyspark.sql.functions import desc, row_number, when
from pyspark.sql.window import Window

和窗口定义:

w = Window().partitionBy("a").orderBy(desc("b"))

最后你使用这些:

df.withColumn("label", when(row_number().over(w) == 1, 1).otherwise(0))

例如数据:

df = sc.parallelize([
    (1, 0.4), (1, 0.8), (1, 0.5), (2, 0.4), (2, 0.1)
]).toDF(["a", "b"])

结果是:

+---+---+-----+
|  a|  b|label|
+---+---+-----+
|  1|0.8|    1|
|  1|0.5|    0|
|  1|0.4|    0|
|  2|0.4|    1|
|  2|0.1|    0|
+---+---+-----+