Question

我的问题是我们允许在bigquery上处理多少数据。我正在使用stackoverflow的kaggle数据集来分析数据，而我正在分析的文本约为27gb。我只想获取每个条目的平均长度，所以我这样做

query_length_text = """
    SELECT 
        AVG(CHAR_LENGTH(title)) AS avg_title_length,
        AVG(CHAR_LENGTH(body)) AS avg_body_length
    FROM
        `bigquery-public-data.stackoverflow.stackoverflow_posts`
"""

无论怎么说：

查询已取消；估计大小为26.847077486105263超出了1 GB的限制

我只返回一个浮点数，所以我知道这不是问题。处理上也有1GB吗？如何批量处理，所以一次只能处理1GB？

Answer 1

因此，默认情况下，Kaggle对请求设置1GB的限制（以防止每月5TB的配额用完）。这就是导致这种情况发生的原因。为了防止这种情况，您可以使用max_gb_scanned参数来覆盖它，如下所示：

df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)

其中N是查询处理的数据量，或大于它的任何数字。

Bigquery最大处理数据量的限额？

1 个答案: