我正在使用新的Github dataset学习BigQuery,并且由于资源超出,我对提交数据集的查询仍然失败。我将SQL修剪为此代码,但仍然失败:
SELECT
commit,
FIRST(repo_name) AS repo_name,
FIRST(author.email) AS author_email,
FIRST(author.time_sec) AS time,
SUM(LENGTH(message)) AS len_commit_msg,
COUNT(difference.new_path) AS num_files
FROM
[bigquery-public-data:github_repos.commits]
GROUP BY
commit
ORDER BY
repo_name,
time
有问题的数据集很大(150米行),我想要的只是一个提交列表,其中包含有关它们的基本信息(提交消息的长度和已更改文件的数量)。
这个例子中有什么特别错的吗?我尝试更改SUM(LENGTH(消息))部分和COUNT()无效。或者对于大查询来说,排序部分是否禁止?
我还检查过以前的资源超过"问题和答案与我避免的PARTITION,JOIN或GROUP EACH BY问题有关。
答案 0 :(得分:5)
ORDER BY很贵 - 试试没有它