应用错误收集

是否有一种方法可以将多个Spark作业分组为一个作业，以便在历史记录服务器中显示？我的特殊用例是RDD.toLocalIterator。当查询迭代器时，实现会为每个分区懒惰地运行一个作业，但是这会导致历史UI中的作业与分区数一样多（每个作业由hasNext触发）。是否有一种方法可以将所有这些作业组合为一个作业，以使历史记录服务器不会被数百个hasNext污染？如果可以，我自己可以实现RDD逻辑。

我仍然需要toLocalIterator的懒惰方面，因为我不想一次在内存中保留多个分区。

在Apache Spark中将几个作业分组在一起

0 个答案: