我有一个巨大的数据文件(200Gb +),其中包含每日指标(数百万个指标)。
对于每个指标,我必须根据一组预定义的时间段(例如10、50、100、365天)计算一些值。
我想知道是否有一些Spark模式可用于一次读取文件,缓存#2的结果等。
答案 0 :(得分:0)
我不确定您的实现方式是什么,但是如果您想缓存巨大的数据集并在Spark作业之间共享它,可以看看Alluxio。
简单的实现是读取文件,进行一些传输并写入Alluxio,您的第二个Spark作业将直接读取Alluxio,以获取由Alluxio缓存到内存中的数据。