应用错误收集

实时处理数百万行

时间：2016-05-16 18:54:46

标签： sql mongodb apache-spark real-time

在我的应用程序中，一个表的行数约为2000万行，并且呈指数级增长。我们需要为该数据生成不同类型的报告，其中涉及以下操作

根据自定义条件获取所有记录组
对它们进行排序
处理它们并生成报告

这是一项耗时的任务，我们正在尝试批量处理的方法，但是为一份报告生成数据需要1小时。

我正在考虑使用不同的方法来解决这个问题

对表格进行适当的索引编制
编写一个异步任务，它将处理表中的每个新条目并将数据放入报告表中（在某些情况下这是不可能的）
使用mongodb - 预聚合索引与apache spark

是否有可能获得实时报告，我该如何处理它，请指导。

0 个答案:

没有答案