应用错误收集

我同意“因为使用连续生产者停止/重新启动查询端通常会触发失败”的原因并没有真正意义。正如您所说，Spark 维护当前的偏移量。此外，在拥有连续生产者的同时停止/重新启动查询正是我们在生产系统上的目标。

因此，我只能猜测那句话的意思，我最好的猜测是有一个错字，它应该写成“没有连续生产者”。

您通常在开发环境中没有连续的生产者，为了节省一些磁盘空间，您通常在开发环境中的主题中保留很短的时间。

在开发阶段，您手动为输入主题生成一些消息并运行 Spark Structured Streaming 作业以查看其行为是否符合预期。假设您生成了偏移量为 0 到 10 的消息。然后，您团队中的某个人想要在该主题上测试另一个消费者并生成偏移量为 11 到 20 的消息。过了一会儿，在下一个开发阶段（假设是 3 周）稍后）您想测试另一个功能，您将再次手动生成一些消息。但是，您的 Kafka 主题的清理策略已经删除了所有旧的偏移量 0 到 20，并且在重新启动流式查询时，它会尝试读取不再存在的偏移量 11。

另一种常见情况是当您从主题中删除有关开发环境的所有数据以便能够“从头开始”时。

这些场景经常出现在开发环境中，因此建议将选项 failOnDataLoss 设置为 false。

重新启动以Kafka为源的流查询时的数据丢失情况

1 个答案: