如何使用Tachyon在Spark作业之间共享数据

时间:2016-06-26 14:10:36

标签: apache-spark alluxio

我是Tachyon的初学者。我想在spark作业之间分享一些数据或rdd。 Tachyon overview

  

Tachyon是一个以内存为中心的开源分布式存储系统,可以跨群集作业以内存速度实现可靠的数据共享。

但我无法弄清楚如何启用它。我只知道tachyon可以充当Spark中的堆外缓存层。感谢。

1 个答案:

答案 0 :(得分:0)

我认为您不需要显式执行此操作,Alluxio将帮助您管理数据共享。

假设您有两个Spark作业A和B,它们已配置为从Alluxio获取数据。

假设Alluxio中没有数据,并且作业A和作业B批量执行。当作业A运行时,Alluxio首先将从UFS中获取数据,满足计算需求并将数据缓存到其本地存储(如内存)中。当作业B需要数据查询时,Alluxio将首先检查其本地存储以满足作业B的需要。仅当缺少缓存时,它才会从UFS中获取数据。现在可以通过不同的作业共享数据。

因此,简而言之,我认为这里的数据共享实际上是您提到的缓存。