应用错误收集

我一直在评估Apache Spark作为DeltaX广告技术平台的处理引擎。一切似乎都很好 - 但我不确定我们是否属于大数据类别。

我们目前通过跟踪系统每天处理大约500万个事件（~10GB）。我们希望每30分钟处理一次正在进行的数据 - 这是每30分钟平均100k个事件。我们预计在不久的将来该数量将增长5倍。

在架构上，我认为这非常适合像Apache Spark这样的分布式处理系统。我还认为流式传输（火花流式传输）对我们拥有的数据感觉很自然 - 点击流，视图流以及其他与我们的跟踪系统相关的广告相关事件。

这是否适合Apache Spark的用例？或者Spark（以及其他相关的大数据技术）是否合理（并且可行）仅超过某个阈值？（是的，3V原理 - 音量，变化，速度）

PS - 我使用的是AWS EMR。 1个主站点，4个核心节点（r4.2xlarge - 每个节点8个内核/ 60GB RAM）