我们需要跟踪不同时段的用户活动,例如24小时,7天等。我们预计不会有大量不同的时段,但用户数量会非常大,可能是数百万。 Nightly cronjob总结每个用户的统计数据听起来不合理。我知道在过去我用RRD表跟踪了这样的网络使用情况,但那些只是BerkeleyDB的,并且必须是每个统计数据的一个文件,这是行不通的,但这个想法似乎就像我追求的那样。是否有我忽略的模式/最佳实践?
答案 0 :(得分:0)
这取决于您要使用的架构以及您可以承受的硬件。
对于海量数据分析,我会选择基于群集的框架,如Hadoop:并构建map / reduce函数来处理您的数据。
用户活动可以存储在dailiy文件中,以便上传到Hadoop集群然后进行处理。
此类解决方案可为您提供必要的可扩展性,仅需要商品硬件。