Spark DataFrame - 使用R

时间:2016-09-15 10:58:13

标签: r apache-spark spark-dataframe sparkr

我有一个像这样的Spark DataFrame:

timestamp            userId
2016-07-26 12:05:00   a
2016-07-26 12:05:01   b
2016-07-26 12:05:02   c
2016-07-26 12:05:03   d
2016-07-26 12:05:04   e
2016-07-26 12:05:05   f

我想将一组中5秒内差异的行分组,例如:

timestamp            userId   group
2016-07-26 12:05:00   a        1  
2016-07-26 12:05:01   b        1
2016-07-26 12:05:02   c        1
2016-07-26 12:05:03   d        1
2016-07-26 12:05:04   e        1
2016-07-26 12:05:05   f        2

有没有办法在不将spark DataFrame转换为R数据帧的情况下执行此操作?

1 个答案:

答案 0 :(得分:0)

此特定功能通常称为会话化,Web分析师经常使用它来识别特定用户的会话。 在hive中有内置的UDF,可以与sparksqlcontext一起使用。 例如, https://docs.treasuredata.com/articles/udfs