需要在Spark Scala中找到给定ID列表的最短时间间隔

时间:2019-08-27 11:09:10

标签: scala apache-spark apache-spark-sql

下面是我需要查找所有给定的Ad_id列表所在的最短时间间隔的日志格式。

使用scala如何找到它。

日志格式

 Impression ID, Ad ID, User ID, timestamp

 I1, A1, U1, 10:00am Jan 1
 I2, A3, U1, 10:45am Jan 1
 I3, A2, U1, 10:50am Jan 1
 I4, A1, U1, 11:00am Jan 1

输入:

A1,A2,A3

输出:

Start:       10:45
End:         11:00
Duration:    15 mins

0 个答案:

没有答案