从大量数据计算统计数据

时间:2013-11-24 21:15:36

标签: parallel-processing statistics large-data

我在一个拥有大约50万活跃用户的项目上工作。我们跟踪了许多用户交互事件(点击等)。使用这些事件,我们需要计算用户行为的统计数据。目前统计数据是在CRON后台任务中计算的。

我们希望统计数据尽可能“在线” - 不是例如从0到30分钟不等。我们还想计算更多的统计数据。所以解决方案必须是可扩展的。

我的想法是为前端应用程序推送到事件的队列提供队列,并通过守护程序从递增处理事件计算统计数据中获取。可以根据需要添加守护进程,可以有不同种类的守护进程用于不同的统计信息。你会推荐这种方法吗?

这种数据处理是否有框架?任何资源的链接都非常有用。

1 个答案:

答案 0 :(得分:0)

Twitter风暴似乎正是我所寻找的 - https://github.com/nathanmarz/storm