我有一个日志文件,其中包含来自大型网站的大量记录。基本格式为:
记录= {epoch_ms user_id url}
如何在apache-spark中以RDD(使用原始(即RDD)操作)或DataFrames的形式创建此会话,以便最终获得以下形式的分组:
地图>
最里面的列表是在单个用户会话中到达的所有记录的列表。最外面的列表是单个用户的会话列表。
后续记录之间的间隔超过3600秒时,将创建一个新会话
使用RDD或DataStream转换如何在Apache Spark中完成此操作?流式或非流式解决方案都很好。
任何参考的部分步骤或指针也将不胜感激。