在Apache Spark中将几个作业分组在一起

时间:2018-08-03 14:13:53

标签: apache-spark

是否有一种方法可以将多个Spark作业分组为一个作业,以便在历史记录服务器中显示?我的特殊用例是RDD.toLocalIterator。当查询迭代器时,实现会为每个分区懒惰地运行一个作业,但是这会导致历史UI中的作业与分区数一样多(每个作业由hasNext触发)。是否有一种方法可以将所有这些作业组合为一个作业,以使历史记录服务器不会被数百个hasNext污染?如果可以,我自己可以实现RDD逻辑。

我仍然需要toLocalIterator的懒惰方面,因为我不想一次在内存中保留多个分区。

0 个答案:

没有答案