我们有一个庞大的数据集,包含数百万条记录,然后按一系列Spark转换和操作处理子集。 每个子集都要经历相同的一组转换和操作。 第一步是获取数据并将其保存在内存中,然后执行多项操作,然后取消持久化缓存。 重复将近2000次。在重复200-300次之后,我们观察到活动阶段的数量几乎为3000,并且还在不断增长。 我们期望每个Unpersist都将消失,但相应的阶段仍然存在。
寻找一种解决方案以最小化活动阶段,以便可以完成作业。 由于活动阶段的增加,目前我们无法将其处理完成。
'accept_file_types' => '/\.(gif|jpe?g|png|pdf)$/i'