应用错误收集

时间：2013-04-22 08:03:07

标签： google-bigquery

我们现在运行BigQuery大约4个月了，我们有一些有趣的观察和有关价格的问题：

定价模型是无法解释的，需要对连接，工会等进行解释
如果我在小桌子上运行连接，那么在bigquery引擎内成倍增加的每个小表副本处理的数据会增加吗？
如果我在查询中重用相同的子查询，那么这是新数据处理，而不管它是否是同一个子查询？这可以以任何方式进行优化吗？不是bigquery缓存它的数据吗？
是否有针对数据处理进行四舍五入的最小尺寸？我们的观察认为它是4MB，这是正确的吗？
在Google控制台中，地理位置存在问题，它表示大多数查询是从CA完成的，这是不正确的，因为我的公司在欧洲并且所有开发都在那里完成。我检查了所有IP地址，没有CA IP。是否有可能获得更详细的报告？
关于5，我们希望获得每个查询和价格的历史记录。我们应该怎么做？我们的软件必须这样做吗？
关于3）我在数据处理方面存在这个巨大的问题（这就是我问所有问题的原因）。我的整个数据集大约150mb，但每个查询的DP大小是3倍大？如果bigquery读取我的整个数据，它将无法达到它在处理数据时显示的大小。什么情况下数据将被重新读取，从而会发生新的DP？你怎么算这个？

谢谢。

此致托米斯拉夫

答案 0 :(得分：3)

对于联接，工会等，定价非常简单。无论需要读取哪些源数据，都只需收取一次费用。例如，如果您进行自我加入，您仍然只需为单次读取数据付费。
见＃1。无论bigquery在内部如何运作，您都应该只收取一次费用。
BigQuery会尽最大努力缓存数据。如果重新运行查询，则会检查缓存。如果有缓存命中，则不会因重新运行查询而收取费用。请注意，只缓存完整的查询结果;如果您修改查询或在子查询中使用它，则不会使用缓存。
BigQuery最多可增加1MB，最小值为10 MB。
我不知道谷歌控制台中的任何地理位置。你在哪里看到这些信息？
您可以通过jobs.list api获取查询历史记录和每个查询处理的数据量。
您是否可以发送您运行的查询的作业ID大于预期。完成的计算是 8个字节*（读取整数和浮点行的行数）+ 2个字节*（读取的字符串列中所有字符串的总长度）。

如果这回答了您的问题，请告诉我。

答案 1 :(得分：0)

我可以为＃5提供澄清。

在Google API控制台的REPORTS下，有与项目的API请求相关的人口统计信息。我怀疑这与BigQuery本身关系不大，而与Google API控制台有关。