如何从BigQuery中提取github时间轴数据

时间:2016-07-19 18:36:57

标签: github google-bigquery github-archive

我无法从BigQuery访问GitHub时间轴。

我使用以下查询:

SELECT repository_name, actor_attributes_company, payload_ref_type, payload_action, type, created_at FROM githubarchive:github.timeline WHERE repository_organization = 'foo' and created_at > '2014-07-01'

一切都很好。现在,它看起来像githubarchive:github.timeline表不再可用。我一直环顾四周,找到了另一张桌子:

SELECT repository_name, actor_attributes_company, payload_ref_type, payload_action, type, created_at FROM publicdata:samples.github_timeline WHERE repository_organization = 'foo' and created_at > '2014-07-01'

此查询有效,但返回零行。当我删除created_at限制时,它工作但只返回了2012年的几行,所以看起来这只是样本数据。

有谁知道如何从GitHub提取实时时间线数据?

2 个答案:

答案 0 :(得分:1)

实际上,publicdata:samples.github_timeline只有样本数据。

有关真正的GitHub存档文档,请查看http://www.githubarchive.org/

昨天我写了一篇关于查询它的文章:

示例查询:

SELECT repo.name,
       JSON_EXTRACT_SCALAR(payload, '$.action') action,
       COUNT(*) c,
FROM [githubarchive:month.201606]
WHERE type IN ('IssuesEvent')
AND repo.name IN ('kubernetes/kubernetes', 'docker/docker', 'tensorflow/tensorflow')
GROUP BY 1,2
ORDER BY 2 DESC

正如米哈伊尔指出的那样,还有另一个包含GitHub代码的数据集:

答案 1 :(得分:0)

查看githubarchive BigQuery项目
它有三个数据集:日,月,年,各自的每日,每月和每年数据

查看https://cloudplatform.googleblog.com/2016/06/GitHub-on-BigQuery-analyze-all-the-open-source-code.html了解详情