应用错误收集

在单个Spark运行中执行所有操作是必需的吗？我的意思是，你想创建一个集群并按顺序执行相同的数据处理，当一个终止时，启动另一个？

相反，您可以使用编排工具作为支持按顺序执行任务的Apache Airflow，您可以查看https://airflow.apache.org/code.html并搜索“depends_on_past”。只有当它的前任终止时它才会执行下一个任务。

其他解决方案可能是使用10分钟的翻滚窗口运行的Spark流媒体作业，并将前一任务的输出作为输入。但要确保你有足够的记忆力来在10分钟内保存这些物品。

======================================

编辑：

在阅读@Stella的评论之后，我最终得到了我的初始提案的新版本。但由于我不知道你的数据源和接收器是什么，我做了一些基于RDBMS（H2）的基本版本和本地存储的文本文件。

因此，在数据库中，我添加了一个列，用于存储我们想要在每次迭代中获取的行的版本。我还添加了一个列来处理分区（它必须是数字，我写了一篇关于这里的帖子：http://www.waitingforcode.com/apache-spark-sql/partitioning-rdbms-data-spark-sql-jdbc/read）。现在它的工作原理如下：

代码包含一个“简化”版本，在单独的查询中写入每一行。我不确定它是否可以正确扩展，你应该更喜欢批处理SQL操作。