标签: apache-spark hadoop
如果提供了平台上每个用户的登录和注销时间的流数据,那么我们需要提供每个用户每天的总活动时间的报告。那么,如何设计一个系统使其可以在数百万个用户数据的情况下工作?
对于小规模的数据,将每个用户的登录-注销对存储在哈希图中是一个不错的选择。但是不能大规模扩展。
如果缺少某些登录或注销详细信息,甚至不是每个数据流都按时间排序,那么相同的解决方案是否可以工作?