火花流窗口有多大?

时间:2016-04-22 02:11:57

标签: apache-spark stream spark-streaming

我需要计算一些数据流。我正在考虑使用spark spark来完成这项工作。但有一件事我不确定并担心。

我的要求如下:

数据每5分钟以CSV文件形式出现。我需要最近5分钟,1小时和1天的数据报告。所以如果我设置一个火花流来进行这个计算。我需要一个间隔为5分钟。此外,我需要设置两个窗口1小时和1天。

每5分钟就会有1GB的数据进入。所以一小时窗口将计算12GB(60/5)数据,一天窗口将计算288GB(24 * 60/5)数据。

我对火花没有多少经验。所以这让我担心。

  1. 可以点亮处理这么大的窗口吗?

  2. 计算这些288 GB数据需要多少RAM?超过288 GB的RAM? (我知道这可能取决于我的磁盘I / O,CPU和计算模式。但我只想根据经验得出一些估计答案)

  3. 如果计算一天/一小时数据的流量过于昂贵。你有更好的建议吗?

0 个答案:

没有答案