在pyspark中按行连接字符串

时间:2017-01-22 08:38:24

标签: python apache-spark pyspark

我正在使用pyspark数据框

DOCTOR | PATIENT
JOHN   | SAM
JOHN   | PETER
JOHN   | ROBIN
BEN    | ROSE
BEN    | GRAY

并且需要按行连接患者姓名,以便得到如下输出:

DOCTOR | PATIENT
JOHN   | SAM, PETER, ROBIN
BEN    | ROSE, GRAY

有人可以帮助我在pyspark中创建这个数据框吗?

提前致谢。

1 个答案:

答案 0 :(得分:12)

我能想到的最简单的方法是使用collect_list

import pyspark.sql.functions as f
df.groupby("col1").agg(f.concat_ws(", ", f.collect_list(df.col2)))