我有一个火花数据框,其中包含一列信息。它看起来像:
Name
----------
Bob
----------
Dan
我想将其转换为单个字符串,由管道字符分隔。
"Bob|Dan"
我将如何在Python(pyspark)中这样做?目前,我正在通过
创建数据框df = sqlContext.sql("Select name from db")
如果你能帮助我走向某个方向,我会很感激。
答案 0 :(得分:1)
这有帮助吗?
SubjectData
答案 1 :(得分:1)
您可以使用函数模块中的collect_list和concat,
>>> from pyspark.sql import functions as F
>>> df.select(F.concat_ws('|',F.collect_list(df.name)).alias('name')).show()
+-------+
| name|
+-------+
|Bob|Dan|
+-------+