建议使用什么方法将失败的记录保留在Google数据流管道中?

时间:2019-04-03 10:29:24

标签: google-cloud-platform google-cloud-dataflow

希望将失败的记录保留在Google Dataflow管道中,以便以后可以搜索/重试。保留失败记录的最佳组件是什么?记录需要按客户和按日期(每天)存储。 Pub / Sub或Bigquery或Datastore是否适合这种情况?

1 个答案:

答案 0 :(得分:0)

我不相信Beam中对此有通用的解决方案。每个接收器可以提供自己的捕获和处理失败记录的方式。例如,BigQuery sink提供了getFailedInserts()函数,当使用流插入向BigQuery写入数据时,该函数将允许您获取失败记录的PCollection。如果您正在使用自定义的ParDo转换进行编写,则可以通过从ParDo中输出失败的元素来实现类似的功能。