我有一个像这样的Spark DataFrame:
timestamp userId
2016-07-26 12:05:00 a
2016-07-26 12:05:01 b
2016-07-26 12:05:02 c
2016-07-26 12:05:03 d
2016-07-26 12:05:04 e
2016-07-26 12:05:05 f
我想将一组中5秒内差异的行分组,例如:
timestamp userId group
2016-07-26 12:05:00 a 1
2016-07-26 12:05:01 b 1
2016-07-26 12:05:02 c 1
2016-07-26 12:05:03 d 1
2016-07-26 12:05:04 e 1
2016-07-26 12:05:05 f 2
有没有办法在不将spark DataFrame转换为R数据帧的情况下执行此操作?
答案 0 :(得分:0)
此特定功能通常称为会话化,Web分析师经常使用它来识别特定用户的会话。 在hive中有内置的UDF,可以与sparksqlcontext一起使用。 例如, https://docs.treasuredata.com/articles/udfs