我们遇到了流媒体插入的问题,因为流式缓冲区中的数据停留时间过长。我们使用apache beam每小时从流表中读取数据并将其复制到对帐表中。为了使此作业作为增量工作,我们让批处理作业始终获取已加载的最新时间戳(在加载时填充当前时间映射的流表上的列)并将其用于下一次运行。此方法用于避免有时数据在查询中不可用的问题,因为它仍然在缓冲区中。
我们现在遇到的问题仍然是记录丢失,因为它们的时间戳(最多30分钟)比上次运行时加载的最大时间戳更低。我不确定这是怎么可能的,因为我希望流式缓冲区可以完全刷新或者根本不刷新。
我已经阅读了类似的问题,显然桌子出现故障并且必须由Google修复(例如BigQuery streaming insert data availability delay)。您能告诉我们可以采取哪些措施来解决这个问题吗?