我的DataFrame
看起来像是:
| c1 | c2| c3 |
|----+---+-------
| A | b | 22:00|
| A | b | 23:00|
| A | b | 09:00|
| A | c | 22:00|
| B | c | 09:30|
我想执行一些聚合并使用3列创建第二个DataFrame
:
c1 :是我要分组的列。
map_category_room_date :地图类型,键入c2
并为c3
中的较低/最小值值。
cnt_orig :计算原始组的行数。
结果
| c1 | map_category_room_date | cnt_orig |
|----------+-------------------------+----------|
| 'A' |{'b': 09:00, 'C': 22:00} | 4 |
| 'B' |{'c': 09:30} | 1 |
我可以使用哪些聚合函数来存档这是最简单的方法?
由于
答案 0 :(得分:1)
您可以window
生成count
,然后使用inbuilt functions
通过以下方式获取您想要的最终数据框
from pyspark.sql import Window
windowSpec = Window.partitionBy("c1")
from pyspark.sql import functions as F
df.withColumn("cnt_orig", count('c1').over(windowSpec)).orderBy('c3').groupBy("c1", "c2", "cnt_orig").agg(first('c3').as('c3'))
.withColumn("c2", F.regexp_replace(F.regexp_replace(F.array($"c2", $"c3").cast(StringType), "[\\[\\]]", ""), ",", " : "))
.groupBy("c1", "cnt_orig").agg(F.collect_list("c2").as('map_category_room_date'))
您应该得到以下结果
+---+--------+----------------------+
|c1 |cnt_orig|map_category_room_date|
+---+--------+----------------------+
|A |4 |[b : 09:00, c : 22:00]|
|b |1 |[c : 09:00] |
+---+--------+----------------------+
Scala方式
在scala中获取所需输出的工作代码是
val windowSpec = Window.partitionBy("c1")
df.withColumn("cnt_orig", count("c1").over(windowSpec)).orderBy("c3").groupBy("c1", "c2", "cnt_orig").agg(first("c3").as("c3"))
.withColumn("c2", regexp_replace(regexp_replace(array($"c2", $"c3").cast(StringType), "[\\[\\]]", ""), ",", " : "))
.groupBy("c1", "cnt_orig").agg(collect_list("c2").as("map_category_room_date"))