实时处理数百万行

时间:2016-05-16 18:54:46

标签: sql mongodb apache-spark real-time

在我的应用程序中,一个表的行数约为2000万行,并且呈指数级增长。我们需要为该数据生成不同类型的报告,其中涉及以下操作

  • 根据自定义条件获取所有记录组
  • 对它们进行排序
  • 处理它们并生成报告

这是一项耗时的任务,我们正在尝试批量处理的方法,但是为一份报告生成数据需要1小时。

我正在考虑使用不同的方法来解决这个问题

  • 对表格进行适当的索引编制
  • 编写一个异步任务,它将处理表中的每个新条目并将数据放入报告表中(在某些情况下这是不可能的)
  • 使用mongodb - 预聚合索引与apache spark

是否有可能获得实时报告,我该如何处理它,请指导。

0 个答案:

没有答案