Spark中的日志文件/时间序列会话化

时间:2018-08-03 22:08:01

标签: apache-spark analysis logfile

我有一个日志文件,其中包含来自大型网站的大量记录。基本格式为:

记录= {epoch_ms user_id url}

如何在apache-spark中以RDD(使用原始(即RDD)操作)或DataFrames的形式创建此会话,以便最终获得以下形式的分组:

地图>

最里面的列表是在单个用户会话中到达的所有记录的列表。最外面的列表是单个用户的会话列表。

后续记录之间的间隔超过3600秒时,将创建一个新会话

使用RDD或DataStream转换如何在Apache Spark中完成此操作?流式或非流式解决方案都很好。

任何参考的部分步骤或指针也将不胜感激。

0 个答案:

没有答案