应用错误收集

分数缓存大于100％

时间：2015-10-16 03:24:34

标签： caching amazon-web-services apache-spark rdd

我有以下Spark工作，一些RDD的RDD 分数缓存超过100％。这怎么可能？我错过了什么？谢谢！

1 个答案:

答案 0 :(得分：2)

我相信这是因为您可以在多个位置缓存相同的分区。有关详细信息，请参阅SPARK-4049。

编辑：

我想知道你是否有speculative execution（见spark.speculation）集？如果你有分散的任务，他们将重新启动，我认为将复制分区。另外，另一个有用的事情可能是调用rdd.toDebugString，它将提供有关RDD的大量信息，包括转换历史和缓存分区的数量。