BigQuery Double Imports

时间:2012-06-17 14:11:17

标签: google-bigquery

我正在使用应用引擎中的Google BigQuery。我有一个cron作业,每15分钟运行一次,导出到BigQuery。随机地,导入运行两次。但是,appengine日志并未反映出这一点。我有一组blob用于向bigquery写入数据,并且没有写入重复数据。有没有其他人有重复导入的重大问题?再次,我的appengine日志显示导入仅发生一次,我有点不知道如何进行故障排除。

2 个答案:

答案 0 :(得分:2)

解决问题的一种方法是查看导入作业。您可以使用bq工具执行此操作,方法是运行bq ls -j列出您运行的作业,然后bq show -j <job_id>显示有关特定作业的详细信息。

我们没有听说过任何其他重复加载的情况。防止这种情况的一个想法是为您的导入作业提供一个id ...默认情况下会为您创建一个(它看起来像job_)。作业ID被强制在项目中是唯一的,因此如果您要为每个导入生成一个id,如果触发了双重导入,则第二个将立即失败,因为作业ID已经存在。

答案 1 :(得分:1)

即使我们的日志显示它只提交了一次,我也面临同样的问题,即作业似乎已导入两次。

还查看了作业,上面的命令显示它只成功处理了一次。

请注意,由于作业只提交了一次,因此在这种情况下不确定如何控制job_id。它似乎是BigQuery内部可能导致作业重复的东西?

如果您需要我的任何内容进行调查,请告诉我。

谢谢,