从GitHub Archive中检索数据的距离是多少?

时间:2012-05-24 13:01:25

标签: github google-bigquery github-archive

GitHub Archive 项目说明

  

GitHub存档是一个项目,用于记录公共GitHub时间轴,存档使其易于访问以进行进一步分析。

此档案也可通过 Google Big Query 查询。但是,看起来我要么缺少某些东西,要么只有部分数据可用。

实际上,运行以下查询只会返回1636 WatchEvents(已启动已停止),而 Rails repository 帐户超过14300观察者。

SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;

看起来最旧的检索数据或多或少是2.5个月。

数据是否会被截断(对于存档而言可能看起来很奇怪)?是否存在我不知道与BigQuery的使用相关的限制/配额?

github-archive

1 个答案:

答案 0 :(得分:7)

这是对的。项目/爬虫在今年3月11日上线,因此当前存档从那天开始。在githubarchive.org页面上有关于此的说明,但我想我应该使其更加明显和明确。

GitHub团队有一个关于提供更多历史记录的帖子,但我还没有ETA。 手指交叉: - )