我无法从BigQuery
访问GitHub时间轴。
我使用以下查询:
SELECT repository_name, actor_attributes_company, payload_ref_type, payload_action, type, created_at FROM githubarchive:github.timeline WHERE repository_organization = 'foo' and created_at > '2014-07-01'
一切都很好。现在,它看起来像githubarchive:github.timeline表不再可用。我一直环顾四周,找到了另一张桌子:
SELECT repository_name, actor_attributes_company, payload_ref_type, payload_action, type, created_at FROM publicdata:samples.github_timeline WHERE repository_organization = 'foo' and created_at > '2014-07-01'
此查询有效,但返回零行。当我删除created_at限制时,它工作但只返回了2012年的几行,所以看起来这只是样本数据。
有谁知道如何从GitHub提取实时时间线数据?
答案 0 :(得分:1)
实际上,publicdata:samples.github_timeline
只有样本数据。
有关真正的GitHub存档文档,请查看http://www.githubarchive.org/
昨天我写了一篇关于查询它的文章:
示例查询:
SELECT repo.name,
JSON_EXTRACT_SCALAR(payload, '$.action') action,
COUNT(*) c,
FROM [githubarchive:month.201606]
WHERE type IN ('IssuesEvent')
AND repo.name IN ('kubernetes/kubernetes', 'docker/docker', 'tensorflow/tensorflow')
GROUP BY 1,2
ORDER BY 2 DESC
正如米哈伊尔指出的那样,还有另一个包含GitHub代码的数据集:
答案 1 :(得分:0)
查看githubarchive BigQuery项目
它有三个数据集:日,月,年,各自的每日,每月和每年数据