GitHub Archive 项目说明
GitHub存档是一个项目,用于记录公共GitHub时间轴,存档,使其易于访问以进行进一步分析。
此档案也可通过 Google Big Query 查询。但是,看起来我要么缺少某些东西,要么只有部分数据可用。
实际上,运行以下查询只会返回1636
WatchEvents(已启动或已停止),而 Rails repository 帐户超过14300
观察者。
SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;
看起来最旧的检索数据或多或少是2.5个月。
数据是否会被截断(对于存档而言可能看起来很奇怪)?是否存在我不知道与BigQuery的使用相关的限制/配额?
答案 0 :(得分:7)
这是对的。项目/爬虫在今年3月11日上线,因此当前存档从那天开始。在githubarchive.org页面上有关于此的说明,但我想我应该使其更加明显和明确。
GitHub团队有一个关于提供更多历史记录的帖子,但我还没有ETA。 手指交叉: - )