我的问题是我们允许在bigquery上处理多少数据。我正在使用stackoverflow的kaggle数据集来分析数据,而我正在分析的文本约为27gb。我只想获取每个条目的平均长度,所以我这样做
query_length_text = """
SELECT
AVG(CHAR_LENGTH(title)) AS avg_title_length,
AVG(CHAR_LENGTH(body)) AS avg_body_length
FROM
`bigquery-public-data.stackoverflow.stackoverflow_posts`
"""
无论怎么说:
查询已取消;估计大小为26.847077486105263超出了1 GB的限制
我只返回一个浮点数,所以我知道这不是问题。处理上也有1GB吗?如何批量处理,所以一次只能处理1GB?
答案 0 :(得分:3)
因此,默认情况下,Kaggle对请求设置1GB的限制(以防止每月5TB的配额用完)。这就是导致这种情况发生的原因。为了防止这种情况,您可以使用max_gb_scanned参数来覆盖它,如下所示:
df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)
其中N是查询处理的数据量,或大于它的任何数字。