在pyspark中组合来自多行的文本

时间:2018-03-24 18:29:59

标签: pyspark spark-dataframe

我使用以下代码

创建了一个PySpark数据帧
testlist = [
             {"category":"A","name":"A1"}, 
             {"category":"A","name":"A2"}, 
             {"category":"B","name":"B1"},
             {"category":"B","name":"B2"}
]

spark_df = spark.createDataFrame(testlist)

结果:

category    name
A           A1
A           A2
B           B1
B           B2

我想让它看起来如下:

category    name
A           A1, A2
B           B1, B2

我尝试了以下不起作用的代码

spark_df.groupby('category').agg('name', lambda x:x + ', ')

任何人都可以帮助确定我做错了什么以及实现这一目标的最佳方法吗?

2 个答案:

答案 0 :(得分:1)

一种选择是使用pyspark.sql.functions.collect_list()作为聚合函数。

from pyspark.sql.functions import collect_list
grouped_df = spark_df.groupby('category').agg(collect_list('name').alias("name"))

这会将name的值收集到列表中,结果输出如下:

grouped_df.show()
#+---------+---------+
#|category |name     |
#+---------+---------+
#|A        |[A1, A2] |
#|B        |[B1, B2] |
#+---------+---------+

如果您希望将输出作为连接字符串,则必须使用udf。例如,您可以先执行上述groupBy(),然后应用udf加入收集的列表:

from pyspark.sql.functions import udf
concat_list = udf(lambda lst: ", ".join(lst), StringType())

grouped_df.withColumn("name", concat_list("name")).show()
#+---------+-------+
#|category |name   |
#+---------+-------+
#|A        |A1, A2 |
#|B        |B1, B2 |
#+---------+-------+

答案 1 :(得分:1)

另一种选择是

>>> df.rdd.reduceByKey(lambda x,y: x+','+y).toDF().show()
+---+-----+
| _1|   _2|
+---+-----+
|  A|A1,A2|
|  B|B1,B2|
+---+-----+