我正在尝试测量Dataflow管道的持续时间,该管道将从Pub / Sub中提取消息并将其加载到BigQuery表中。尽管存在表的最后修改日期时间,但我找不到在BigQuery表中如何获取行的最后修改时间。 有人知道如何将上次修改的日期时间设置为BigQuery表的行吗?
答案 0 :(得分:1)
您应在创建输出数据结构的应用程序中包括当前时间戳。从某种意义上讲,这就是事件时间(您可以通过在客户端或服务器上添加事件时间来增加粒度,具体取决于事件的产生方式。)
然后,您可能想要记录处理之前的时间(从Pub / Sub读取消息之后)。然后,您想记录时间,然后再写入BigQuery。
您可以使用DoFn作为额外步骤来完成这两项操作,也可以将其包括在管道中的第一个转换中的第一个动作和最后一个转换中的最后一个动作。
分别将这些新列包括到输出BigQuery表的表架构中。