分数缓存大于100%

时间:2015-10-16 03:24:34

标签: caching amazon-web-services apache-spark rdd

我有以下Spark工作,一些RDD的RDD 分数缓存超过100%。这怎么可能?我错过了什么?谢谢!

enter image description here

1 个答案:

答案 0 :(得分:2)

我相信这是因为您可以在多个位置缓存相同的分区。有关详细信息,请参阅SPARK-4049

编辑:

我想知道你是否有speculative execution(见spark.speculation)集?如果你有分散的任务,他们将重新启动,我认为将复制分区。另外,另一个有用的事情可能是调用rdd.toDebugString,它将提供有关RDD的大量信息,包括转换历史和缓存分区的数量。