标签: caching amazon-web-services apache-spark rdd
我有以下Spark工作,一些RDD的RDD 分数缓存超过100%。这怎么可能?我错过了什么?谢谢!
答案 0 :(得分:2)
我相信这是因为您可以在多个位置缓存相同的分区。有关详细信息,请参阅SPARK-4049。
编辑:
我想知道你是否有speculative execution(见spark.speculation)集?如果你有分散的任务,他们将重新启动,我认为将复制分区。另外,另一个有用的事情可能是调用rdd.toDebugString,它将提供有关RDD的大量信息,包括转换历史和缓存分区的数量。
spark.speculation
rdd.toDebugString