应用错误收集

我们有一个庞大的数据集，包含数百万条记录，然后按一系列Spark转换和操作处理子集。每个子集都要经历相同的一组转换和操作。第一步是获取数据并将其保存在内存中，然后执行多项操作，然后取消持久化缓存。重复将近2000次。在重复200-300次之后，我们观察到活动阶段的数量几乎为3000，并且还在不断增长。我们期望每个Unpersist都将消失，但相应的阶段仍然存在。

寻找一种解决方案以最小化活动阶段，以便可以完成作业。由于活动阶段的增加，目前我们无法将其处理完成。

'accept_file_types' => '/\.(gif|jpe?g|png|pdf)$/i'

重用同一Spark会话导致多个活动阶段

0 个答案: