我有一个包含以下几列的数据框-用户,订单,食品。
例如:
df = spark.createDataFrame(pd.DataFrame([['A','B','A','C','A'],[1,1,2,1,3],['Eggs','Salad','Peaches','Bread','Water']],index=['User','Order','Food']).T)
我想将所有食物合并为一个字符串,按顺序排序并按每个用户分组
如果我运行以下命令:
df.groupBy("User").agg(concat_ws(" $ ",collect_list("Food")).alias("Food List"))
我只有一个清单,但没有按顺序排列食物。
User Food List
B Salad
C Bread
A Eggs $ Water $ Peaches
有什么好方法可以将食物清单按顺序排列在一起?
答案 0 :(得分:1)
尝试在此处使用window
from pyspark.sql.window import Window
from pyspark.sql import functions as F
from pyspark.sql.functions import mean, pandas_udf, PandasUDFType
from pyspark.sql.types import *
df = spark.createDataFrame(pd.DataFrame([['A','B','A','C','A'],[1,1,2,1,3],['Eggs','Salad','Peaches','Bread','Water']],index=['User','Order','Food']).T)
df.show()
+----+-----+-------+
|User|Order| Food|
+----+-----+-------+
| A| 1| Eggs|
| B| 1| Salad|
| A| 2|Peaches|
| C| 1| Bread|
| A| 3| Water|
+----+-----+-------+
udf
来连接字符串:w = Window.partitionBy('User').orderBy('Order').rangeBetween(Window.unboundedPreceding, Window.unboundedFollowing)
@pandas_udf(StringType(), PandasUDFType.GROUPED_AGG)
def _udf(v):
return ' $ '.join(v)
df = df.withColumn('Food List', _udf(df['Food']).over(w)).dropDuplicates(['User', 'Food List']).drop(*['Order', 'Food'])
df.show(truncate=False)
+----+----------------------+
|User|Food List |
+----+----------------------+
|B |Salad |
|C |Bread |
|A |Eggs $ Peaches $ Water|
+----+----------------------+
答案 1 :(得分:0)
基于可能重复的注释-collect_list by preserving order based on another variable,我提出了一个解决方案。
首先定义一个排序器功能。这需要一个结构,按顺序排序,然后返回以'$'
分隔的字符串格式的项目列表# define udf
def sorter(l):
res = sorted(l, key=lambda x: x.Order)
return ' $ '.join([item[1] for item in res])
sort_udf = udf(sorter,StringType())
然后创建结构并运行sorter函数:
SortedFoodList = (df.groupBy("User")
.agg(collect_list(struct("Order","Food")).alias("food_list"))
.withColumn("sorted_foods",sort_udf("food_list"))
.drop("food_list)
)