标签: pyspark spark-streaming azure-databricks
我面临的问题是我的过程依赖batchId作为对管道第二阶段准备就绪的某种控制。因此,只有在第一阶段(批次)完成后,才能进入第二阶段。
我想确保在需要时可以通过将更多流附加到同一数据源来提高速度。 <<-(这就是为什么这不是重复的帖子)
我还想保证在出现问题的情况下,流可以从停止处继续。