通过Spark计算共享数据集

时间:2019-07-09 09:42:06

标签: apache-spark

我有一个巨大的数据文件(200Gb +),其中包含每日指标(数百万个指标)。

对于每个指标,我必须根据一组预定义的时间段(例如10、50、100、365天)计算一些值。

  1. 每天进行一次计算,时间段不会更改,每次都会计算所有时间段。
  2. 结果可以重复使用(10系列可以重复使用50个,以此类推,50个可以重复使用100个,依此类推)
  3. 文件中的记录未排序

我想知道是否有一些Spark模式可用于一次读取文件,缓存#2的结果等。

1 个答案:

答案 0 :(得分:0)

我不确定您的实现方式是什么,但是如果您想缓存巨大的数据集并在Spark作业之间共享它,可以看看Alluxio

简单的实现是读取文件,进行一些传输并写入Alluxio,您的第二个Spark作业将直接读取Alluxio,以获取由Alluxio缓存到内存中的数据。

Alluxio Architecture with Spark and Other Computation Engines