Bigquery最大处理数据量的限额?

时间:2019-08-06 20:17:33

标签: google-bigquery bigdata kaggle

我的问题是我们允许在bigquery上处理多少数据。我正在使用stackoverflow的kaggle数据集来分析数据,而我正在分析的文本约为27gb。我只想获取每个条目的平均长度,所以我这样做

query_length_text = """
    SELECT 
        AVG(CHAR_LENGTH(title)) AS avg_title_length,
        AVG(CHAR_LENGTH(body)) AS avg_body_length
    FROM
        `bigquery-public-data.stackoverflow.stackoverflow_posts`
"""

无论怎么说:

  

查询已取消;估计大小为26.847077486105263超出了1 GB的限制

我只返回一个浮点数,所以我知道这不是问题。处理上也有1GB吗?如何批量处理,所以一次只能处理1GB?

1 个答案:

答案 0 :(得分:3)

因此,默认情况下,Kaggle对请求设置1GB的限制(以防止每月5TB的配额用完)。这就是导致这种情况发生的原因。为了防止这种情况,您可以使用max_gb_scanned参数来覆盖它,如下所示:

df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)

其中N是查询处理的数据量,或大于它的任何数字。