将一列spark数据帧转换为Python中由pipline字符分隔的Single String

时间:2017-08-10 21:33:15

标签: python apache-spark pyspark

我有一个火花数据框,其中包含一列信息。它看起来像:

Name
----------
Bob


----------
Dan

我想将其转换为单个字符串,由管道字符分隔。

"Bob|Dan"

我将如何在Python(pyspark)中这样做?目前,我正在通过

创建数据框
df = sqlContext.sql("Select name from db")

如果你能帮助我走向某个方向,我会很感激。

2 个答案:

答案 0 :(得分:1)

这有帮助吗?

SubjectData

答案 1 :(得分:1)

您可以使用函数模块中的collect_list和concat,

>>> from pyspark.sql import functions as F
>>> df.select(F.concat_ws('|',F.collect_list(df.name)).alias('name')).show()
+-------+
|   name|
+-------+
|Bob|Dan|
+-------+