应用错误收集

如何在不保存所有数据的情况下检查RDD？

时间：2016-12-30 11:25:15

标签： apache-spark spark-streaming

我正在运行一系列作业，并且在所有作业中都使用了中间 rdd 。所以我已经缓存了中间的 rdds ，但经过一些迭代后它的速度变慢了。然后我在缓存后使用 rdd 检查指向以打破不需要的谱系。在spark UI中，我能够确认检查指向是否正确完成。但它也需要时间，因为它将每个 rdd 写入本地系统。在不保存实际 rdd 数据的情况下，打破不必要的血统的有效方法是什么？

1 个答案:

答案 0 :(得分：0)

检查点的确切点是保存所有数据。这样可以打破血统和“忘记”＃34;关于过去。如果不保存数据，就不可能打破血统。

如何在没有夏季布局的情况下清除超网格的所有数据和布局
检查点RDD ReliableCheckpointRDD与原始RDD具有不同数量的分区
将数据作为RDD保存回Cassandra
将数据帧保存为texfile而不转换为RDD
保存所有标签的数据
将RDD减少为其值的集合
如何在不保存所有数据的情况下检查RDD？
Tensorflow：保存/导入检查点无错误地工作，但所有导入的变量都具有值'none'
及时保存特定的TensorFlow检查点
如何在没有会话的情况下创建TensorFlow检查点？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？