Google BigQuery Streaming Data与Mixpanel不对应

时间:2016-09-22 22:03:06

标签: google-bigquery

我正在尝试通过与Mixpanel交叉检查将数据流事件验证到BigQuery中。但是,BigQuery中的数据对于我们流入的每种类型的事件总是比Mixpanel更多。我认为这是一个重复问题,但BigQuery中每个事件的时间都不同。我可以看到的唯一可能导致差异的问题是流式插入具有显着滞后,使得某些事件在表中不显示长达一个小时。如果有人能让我对这个问题有所了解,我将不胜感激。澄清:

  1. 我通过查看每天有多少事件流来验证BigQuery数据。

  2. 差异有点小,例如在某一天,当BigQuery看到703个事件时,Mixpanel会看到634个事件。

  3. 我已经考虑了时区差异,因为Mixpanel会在当前时区提供事件,而我公司会以UTC格式存储事件。

1 个答案:

答案 0 :(得分:1)

如果您正在重试失败的作业,则报告为失败的作业可能会成功并创建重复项。

您可以通过在流媒体作业中提供唯一的insertId来缓解此问题,Google将执行尽力重复数据删除。

当您为每个事件引用不同的时间时,是否引用了数据集或creation_time列中的列?