应用错误收集

如何有效地跟踪大数据中每个用户的总体活动时间？

时间：2018-10-05 13:27:46

标签： apache-spark hadoop

如果提供了平台上每个用户的登录和注销时间的流数据，那么我们需要提供每个用户每天的总活动时间的报告。那么，如何设计一个系统使其可以在数百万个用户数据的情况下工作？

对于小规模的数据，将每个用户的登录-注销对存储在哈希图中是一个不错的选择。但是不能大规模扩展。
如果缺少某些登录或注销详细信息，甚至不是每个数据流都按时间排序，那么相同的解决方案是否可以工作？

0 个答案:

没有答案