我正在尝试使用Tachyon实现RDD / Dataframe共享。我的理解是,对于HDFS underFS,写入是异步的(复制到HDFS发生在场景后面)因此应该更快但在我的测试中我看到带有HDFS underFS的Tachyon在写入时慢了2-6倍。
从this Tachyon paper我看到:
“我们在Spark和MapReduce集成中配置了[基于谱系的容错]”
如何在Tachyon中启用Spark以使用基于谱系的容错?
注意:我使用Spark Dataframe方法df.write.parquet
和RDD方法rdd.saveAsObjectFile
将我的Dataframes / RDD保存到Tachyon。
答案 0 :(得分:0)
您应该将tachyon.user.lineage.enabled
设置为true,并根据您的偏好调整其他血统设置。一些最有趣的设置(来自Master Configuration docs):
tachyon.master.lineage.checkpoint.interval.ms
- Tachyon的检查点调度之间的间隔(以毫秒为单位)。tachyon.master.lineage.checkpoint.class
- 沿袭输出文件的检查点策略的类名。默认策略是检查最新完成的谱系,即输出文件已完成的谱系。tachyon.master.lineage.recompute.interval.ms
- Tachyon重计算执行之间的间隔(以毫秒为单位)。执行程序扫描由沿袭跟踪的所有丢失文件,并重新执行相应的作业。每10分钟一次。
有关详细信息,请参阅Lineage API docs。