检索GitHub repos的语言和观星者

时间:2017-08-31 11:45:23

标签: github google-bigquery github-archive

我是SQL和GitHubArchieve的新手,并试图在GitHub上获取流行存储库的语言和观星者列表。

我正在寻找的信息包括repo id,repo语言(语言+百分比),repo stargazers(以及他们的时区)。

因此,我的解决方案是检索最受欢迎的存储库,然后解析languages_urlstargazers_url以获取其信息。

我开始使用以下查询来检索常用的存储库:

SELECT
  repo.name,
  repo.id,
  repo.url,
  payload,
  COUNT(*) watch_count,
  JSON_EXTRACT_SCALAR(payload, '$.watch.action.repository.languages_url') AS repo_languages_url 
FROM [githubarchive:month.201601],
WHERE type = 'WatchEvent'
GROUP BY 1,2,3,4,6
HAVING watch_count >= 2000 ORDER BY watch_count DESC
LIMIT 1000

监视事件的有效负载只是:{"action":"started"}所以我没有得到有关存储库的语言和贡献者的任何信息。

有任何关于获取我正在寻找的信息的建议吗? 有没有办法在不解析的情况下检索那些信息?

提前致谢

0 个答案:

没有答案