我是Tachyon的初学者。我想在spark作业之间分享一些数据或rdd。 Tachyon overview说
Tachyon是一个以内存为中心的开源分布式存储系统,可以跨群集作业以内存速度实现可靠的数据共享。
但我无法弄清楚如何启用它。我只知道tachyon可以充当Spark中的堆外缓存层。感谢。
答案 0 :(得分:0)
我认为您不需要显式执行此操作,Alluxio
将帮助您管理数据共享。
假设您有两个Spark作业A和B,它们已配置为从Alluxio
获取数据。
假设Alluxio
中没有数据,并且作业A和作业B批量执行。当作业A运行时,Alluxio
首先将从UFS中获取数据,满足计算需求并将数据缓存到其本地存储(如内存)中。当作业B需要数据查询时,Alluxio将首先检查其本地存储以满足作业B的需要。仅当缺少缓存时,它才会从UFS中获取数据。现在可以通过不同的作业共享数据。
因此,简而言之,我认为这里的数据共享实际上是您提到的缓存。