如何将Load Balancer日志实时导出到BigQuery?

时间:2019-07-17 14:43:32

标签: google-bigquery load-balancing google-cloud-dataflow google-cloud-pubsub

我们正尝试将所有http请求导出到我们的Google负载均衡器中以生成大查询。不幸的是,我们注意到数据是在3分钟后到达BigQuery的。

从本教程开始:https://cloud.google.com/solutions/serverless-pixel-tracking

  1. 我们创建了一个负载均衡器,该负载均衡器指向公共存储上的pixel.png
  2. 创建接收器以将所有日志导出到发布/订阅
  3. 使用提供的模板通过流式处理将pub / sub插入到BigQuery表中创建了DataFlow
  4. 表按日期进行了分区,并在小时和分钟上具有一个群集列。

在扩展到每秒1000个请求后,我们发现数据延迟了2或3分钟

$('input.autocomplete').autocomplete({ data: { "Microsoft": 12, "Google": 10 } });

此查询将在几秒钟后执行,但最后结果是3分钟

1 个答案:

答案 0 :(得分:0)

我将大量不同资源的日志直接导出到BigQuery中,而无需使用数据流或pub / sub,我可以实时看到它们。如果您不需要在数据流中进行某些特殊的预处理,则可能希望尝试直接导出到BigQuery中并删除在引入延迟之间的其他内容。