我想确保我理解快子。使用带有hdfs的Tachyon或多或少等同于使用MEMORY_AND_DISK持久保存RDD。在这两种情况下,当数据量超过运行内存时,它们会被撞到硬盘驱动器上。
我理解由于jvm垃圾收集导致的性能差异。我只是询问过度溢出行为。
答案 0 :(得分:1)
在磁盘中保留RDD的推荐方法是使用本地fs,而不是dfs -check SPARK_LOCAL_DIRS参数 - 。 这是因为spark不会跟踪dfs所做的数据移动。另外,本地fs比dfs快得多,因为没有复制等......
在集群中,在将数据写入(d)fs之前,tachyon有可能使用其他节点内存进行溢出。 因此,如果网络+内存成本<1,则更好。磁盘成本。
在单个节点中,我不认为除了去除gc开销之外,tachyon还会带来任何性能提升。