Pyspark groupby然后在组内排序

时间:2017-08-16 14:33:27

标签: group-by pyspark pyspark-sql

我有一个包含id,offset,text的表。假设输入:

id offset text
1  1      hello 
1  7      world
2  1      foo

我希望输出如下:

id text
1  hello world
2  foo

我正在使用:

df.groupby(id).agg(concat_ws("",collect_list(text))

但我不知道如何确保文本中的顺序。我在sort数据之前做了groupby,但我听说groupby可能会混乱数据。在sort数据之后,有没有办法在群组内groupby进行操作?

1 个答案:

答案 0 :(得分:0)

这将创建必需的df:

df1 = sqlContext.createDataFrame([("1", "1","hello"), ("1", "7","world"), ("2", "1","foo")], ("id", "offset" ,"text" ))
display(df1)

然后您可以使用以下代码,可以对其进行进一步优化:

@udf
def sort_by_offset(col):
  result =""
  text_list = col.split("-")
  for i in range(len(text_list)):
    text_list[i] = text_list[i].split(" ")
    text_list[i][0]=int(text_list[i][0])
  text_list = sorted(text_list, key=lambda x: x[0], reverse=False)
  for i in range(len(text_list)):
    result = result+ " " +text_list[i][1]
  return result.lstrip()
df2 = df1.withColumn("offset_text",concat(col("offset"),lit(" "),col("text")))
df3 = df2.groupby(col("id")).agg(concat_ws("-",collect_list(col("offset_text"))).alias("offset_text"))
df4 = df3.withColumn("text",sort_by_offset(col("offset_text")))
display(df4)

最终输出: Final Output