应用错误收集

通过Spark计算共享数据集

时间：2019-07-09 09:42:06

标签： apache-spark

我有一个巨大的数据文件（200Gb +），其中包含每日指标（数百万个指标）。

对于每个指标，我必须根据一组预定义的时间段（例如10、50、100、365天）计算一些值。

每天进行一次计算，时间段不会更改，每次都会计算所有时间段。
结果可以重复使用（10系列可以重复使用50个，以此类推，50个可以重复使用100个，依此类推）
文件中的记录未排序

我想知道是否有一些Spark模式可用于一次读取文件，缓存＃2的结果等。

1 个答案:

答案 0 :(得分：0)

我不确定您的实现方式是什么，但是如果您想缓存巨大的数据集并在Spark作业之间共享它，可以看看Alluxio。

简单的实现是读取文件，进行一些传输并写入Alluxio，您的第二个Spark作业将直接读取Alluxio，以获取由Alluxio缓存到内存中的数据。