Question

我有一个像这样的Spark DataFrame：

timestamp            userId
2016-07-26 12:05:00   a
2016-07-26 12:05:01   b
2016-07-26 12:05:02   c
2016-07-26 12:05:03   d
2016-07-26 12:05:04   e
2016-07-26 12:05:05   f

我想将一组中5秒内差异的行分组，例如：

timestamp            userId   group
2016-07-26 12:05:00   a        1  
2016-07-26 12:05:01   b        1
2016-07-26 12:05:02   c        1
2016-07-26 12:05:03   d        1
2016-07-26 12:05:04   e        1
2016-07-26 12:05:05   f        2

有没有办法在不将spark DataFrame转换为R数据帧的情况下执行此操作？

Answer 1

此特定功能通常称为会话化，Web分析师经常使用它来识别特定用户的会话。在hive中有内置的UDF，可以与sparksqlcontext一起使用。例如， https://docs.treasuredata.com/articles/udfs

Spark DataFrame - 使用R

1 个答案: