火花坚持MEMOERY_AND_DISK对阵Tachyon

时间:2015-06-27 01:24:09

标签: apache-spark in-memory alluxio

我想确保我理解快子。使用带有hdfs的Tachyon或多或少等同于使用MEMORY_AND_DISK持久保存RDD。在这两种情况下,当数据量超过运行内存时,它们会被撞到硬盘驱动器上。

我理解由于jvm垃圾收集导致的性能差异。我只是询问过度溢出行为。

1 个答案:

答案 0 :(得分:1)

在磁盘中保留RDD的推荐方法是使用本地fs,而不是dfs -check SPARK_LOCAL_DIRS参数 - 。 这是因为spark不会跟踪dfs所做的数据移动。另外,本地fs比dfs快得多,因为没有复制等......

在集群中,在将数据写入(d)fs之前,tachyon有可能使用其他节点内存进行溢出。 因此,如果网络+内存成本<1,则更好。磁盘成本。

在单个节点中,我不认为除了去除gc开销之外,tachyon还会带来任何性能提升。