我正在运行一系列作业,并且在所有作业中都使用了中间 rdd 。所以我已经缓存了中间的 rdds ,但经过一些迭代后它的速度变慢了。然后我在缓存后使用 rdd 检查指向以打破不需要的谱系。在spark UI中,我能够确认检查指向是否正确完成。但它也需要时间,因为它将每个 rdd 写入本地系统。在不保存实际 rdd 数据的情况下,打破不必要的血统的有效方法是什么?
答案 0 :(得分:0)
检查点的确切点是保存所有数据。这样可以打破血统和“忘记”#34;关于过去。如果不保存数据,就不可能打破血统。