是否有一种方法可以将多个Spark作业分组为一个作业,以便在历史记录服务器中显示?我的特殊用例是RDD.toLocalIterator
。当查询迭代器时,实现会为每个分区懒惰地运行一个作业,但是这会导致历史UI中的作业与分区数一样多(每个作业由hasNext
触发)。是否有一种方法可以将所有这些作业组合为一个作业,以使历史记录服务器不会被数百个hasNext
污染?如果可以,我自己可以实现RDD逻辑。
我仍然需要toLocalIterator
的懒惰方面,因为我不想一次在内存中保留多个分区。