我需要计算一些数据流。我正在考虑使用spark spark来完成这项工作。但有一件事我不确定并担心。
我的要求如下:
数据每5分钟以CSV文件形式出现。我需要最近5分钟,1小时和1天的数据报告。所以如果我设置一个火花流来进行这个计算。我需要一个间隔为5分钟。此外,我需要设置两个窗口1小时和1天。
每5分钟就会有1GB的数据进入。所以一小时窗口将计算12GB(60/5)数据,一天窗口将计算288GB(24 * 60/5)数据。
我对火花没有多少经验。所以这让我担心。
可以点亮处理这么大的窗口吗?
计算这些288 GB数据需要多少RAM?超过288 GB的RAM? (我知道这可能取决于我的磁盘I / O,CPU和计算模式。但我只想根据经验得出一些估计答案)
如果计算一天/一小时数据的流量过于昂贵。你有更好的建议吗?