希望将失败的记录保留在Google Dataflow管道中,以便以后可以搜索/重试。保留失败记录的最佳组件是什么?记录需要按客户和按日期(每天)存储。 Pub / Sub或Bigquery或Datastore是否适合这种情况?
答案 0 :(得分:0)
我不相信Beam中对此有通用的解决方案。每个接收器可以提供自己的捕获和处理失败记录的方式。例如,BigQuery sink提供了getFailedInserts()函数,当使用流插入向BigQuery写入数据时,该函数将允许您获取失败记录的PCollection。如果您正在使用自定义的ParDo转换进行编写,则可以通过从ParDo中输出失败的元素来实现类似的功能。