我正在使用pyspark数据框
DOCTOR | PATIENT
JOHN | SAM
JOHN | PETER
JOHN | ROBIN
BEN | ROSE
BEN | GRAY
并且需要按行连接患者姓名,以便得到如下输出:
DOCTOR | PATIENT
JOHN | SAM, PETER, ROBIN
BEN | ROSE, GRAY
有人可以帮助我在pyspark中创建这个数据框吗?
提前致谢。
答案 0 :(得分:12)
我能想到的最简单的方法是使用collect_list
import pyspark.sql.functions as f
df.groupby("col1").agg(f.concat_ws(", ", f.collect_list(df.col2)))