我一直在评估Apache Spark作为DeltaX广告技术平台的处理引擎。一切似乎都很好 - 但我不确定我们是否属于大数据类别。
我们目前通过跟踪系统每天处理大约500万个事件(~10GB)。我们希望每30分钟处理一次正在进行的数据 - 这是每30分钟平均100k个事件。我们预计在不久的将来该数量将增长5倍。
在架构上,我认为这非常适合像Apache Spark这样的分布式处理系统。 我还认为流式传输(火花流式传输)对我们拥有的数据感觉很自然 - 点击流,视图流以及其他与我们的跟踪系统相关的广告相关事件。
这是否适合Apache Spark的用例? 或者Spark(以及其他相关的大数据技术)是否合理(并且可行)仅超过某个阈值? (是的,3V原理 - 音量,变化,速度)
PS - 我使用的是AWS EMR。 1个主站点,4个核心节点(r4.2xlarge - 每个节点8个内核/ 60GB RAM)