应用错误收集

我有一个日志文件，其中包含来自大型网站的大量记录。基本格式为：

记录= {epoch_ms user_id url}

如何在apache-spark中以RDD（使用原始（即RDD）操作）或DataFrames的形式创建此会话，以便最终获得以下形式的分组：

地图>

最里面的列表是在单个用户会话中到达的所有记录的列表。最外面的列表是单个用户的会话列表。

后续记录之间的间隔超过3600秒时，将创建一个新会话

使用RDD或DataStream转换如何在Apache Spark中完成此操作？流式或非流式解决方案都很好。

任何参考的部分步骤或指针也将不胜感激。