我有以下数据集:-
ID Sensor State DateTime
1 S1 0 2018-09-10 10:10:05
1 S1 0 2018-09-10 10:10:10
1 S1 0 2018-09-10 10:10:20
1 S1 1 2018-09-10 10:10:30
1 S1 1 2018-09-10 10:10:40
1 S1 1 2018-09-10 10:10:50
1 S1 1 2018-09-10 10:10:60
1 S2 0 2018-09-10 10:10:10
1 S2 0 2018-09-10 10:10:20
1 S2 0 2018-09-10 10:10:30
1 S2 1 2018-09-10 10:10:40
1 S2 1 2018-09-10 10:10:50
2 S1 0 2018-09-10 10:10:30
2 S1 1 2018-09-10 10:10:40
2 S1 1 2018-09-10 10:10:50
必需的输出
ID Sensor State MinDT MaxDT
1 S1 0 2018-09-10 10:10:05 2018-09-10 10:10:20
1 S1 1 2018-09-10 10:10:30 2018-09-10 10:10:60
1 S2 0 2018-09-10 10:10:10 2018-09-10 10:10:30
1 S2 1 2018-09-10 10:10:40 2018-09-10 10:10:50
2 S1 0 2018-09-10 10:10:30 2018-09-10 10:10:30
2 S1 1 2018-09-10 10:10:40 2018-09-10 10:10:50
我想根据传感器的变化值来分组,更改值时需要范围。请帮忙。我尝试了一种简单的方法,即初始化变量中的值,然后遍历每一行以检查值的变化并将ResultSet存储在数组中,但是这种方法未分布在群集上。有任何建议。
答案 0 :(得分:0)
您可以按照这种方式进行分组,并根据需要获得结果。
df.groupBy("ID", "Sensor", "State")
.agg(
date_format(max(to_timestamp($"DateTime", "yyyy-MM-dd HH:mm:ss")), "yyyy-MM-dd HH:mm:ss").alias("MaxDT"),
date_format(min(to_timestamp($"DateTime", "yyyy-MM-dd HH:mm:ss")), "yyyy-MM-dd HH:mm:ss").alias("MinDT"))
.show()
输出:
+---+------+-----+-------------------+-------------------+
| ID|Sensor|State| MaxDT| MinDT|
+---+------+-----+-------------------+-------------------+
| 2| S1| 0|2018-09-10 10:10:30|2018-09-10 10:10:30|
| 1| S2| 1|2018-09-10 10:10:50|2018-09-10 10:10:40|
| 2| S1| 1|2018-09-10 10:10:50|2018-09-10 10:10:40|
| 1| S1| 0|2018-09-10 10:10:20|2018-09-10 10:10:05|
| 1| S2| 0|2018-09-10 10:10:30|2018-09-10 10:10:10|
| 1| S1| 1|2018-09-10 10:10:50|2018-09-10 10:10:30|
+---+------+-----+-------------------+-------------------+