应用错误收集

Google BigQuery：慢速流式插入性能

时间：2014-11-13 19:37:36

标签： google-bigquery

我们正在使用BigQuery作为事件记录平台。

我们遇到的问题是非常慢的insertAll帖子请求（https://cloud.google.com/bigquery/docs/reference/v2/tabledata/insertAll）。从服务器端或客户端发射它们并不重要。

最小值为900毫秒，平均值为1500秒，连接时间接近1000毫秒。即使每秒有1个请求（因此这里没有限制）。

我们使用Google Analytics测量协议，同一台计算机的计时时间为50-150毫秒。

BigQuery streaming 'insertAll' performance with PHP中描述的解决方案使用队列，但似乎有点矫枉过正，因为我们每秒发送的请求不超过10个。

问题是流媒体插入是否正常1500ms，如果不正常，如何使它们更快。

附加信息：如果我们发送格式错误的JSON，响应将在50-100ms内到达。

2 个答案:

答案 0 :(得分：7)

由于流媒体的有效载荷大小有限，请参阅Quota policy更容易谈论时间，因为有效载荷以同样的方式限制在我们两个人身上，但我也会提到其他副作用。

我们为每个流媒体请求测量1200-2500毫秒，这在过去的一个月中是一致的，如图所示。

enter image description here

我们看到了几种副作用，但是：

请求随机失败，类型为“后端错误”
请求随机失败，类型为“连接错误”
请求随机类型'timeout'随机失败（请注意此处，因为只有部分行失败而不是整个有效负载）
其他一些错误消息是非描述性的，而且它们非常模糊，以至于它们无法帮助您，只需重试即可。
我们每天都会看到数百起此类故障，因此它们几乎不变，与云健康状况无关。

对于所有这些，我们在付费Google Enterprise支持中打开了案例，但不幸的是他们没有解决它。它接缝推荐的选项，因为这是一个指数退避与重试，甚至支持告诉这样做。哪个人不会让我开心。

此外，失败率符合我们在SLA中的99.9％正常运行时间，因此没有理由反对。

关于SLA需要注意的事项，它是一个非常严格定义的结构，细节是here。 99.9％的正常运行时间未直接转换为失败率。这意味着如果BQ在一个月内有30分钟的停机时间，然后在该时间段内进行10,000次插入但在该月的其他时间没有进行任何插入，则会导致数字被串联。这就是我们建议指数退避算法的原因。 SLA明确地基于正常运行时间而不是错误率，但从逻辑上讲，如果您在不同时间使用退避重试设置在整个月中进行流式插入，则两者之间会密切相关。从技术上讲，如果你已经设置了适当的重试机制，那么如果你在月内进行插入，你应该平均经历大约1/1000次失败的插入。

您可以查看有关项目运行状况的此图表： https://console.developers.google.com/project/YOUR-APP-ID/apiui/apiview/bigquery?tabId=usage&duration=P1D

碰巧我的回复是在链接的其他文章上，我提出了队列，因为它使我们的指数退避很容易，并且使用队列非常容易。我们使用Beanstalkd。

答案 1 :(得分：1)

根据我的经验对bigquery的任何请求都需要很长时间。我们已经尝试将其用作性能数据的数据库，但由于响应时间较慢，最终会将其移出。据我所知。 BQ专为在1到10秒的响应时间内处理大请求而构建。这些是BQ归类为交互式的请求。 BQ不会因为做得更少而变得更快。我们将一些记录流式传输到BQ，但始终确保我们将它们分批（每个表）。并异步运行所有请求（或者如果你必须在另一个请求中）。

PS。我可以确认Pentium10对BQ中的faillures有什么看法。确保重试失败的内容，如果再次失败，请将其记录到文件中，以便再次重试。