我是SQL和GitHubArchieve的新手,并试图在GitHub上获取流行存储库的语言和观星者列表。
我正在寻找的信息包括repo id,repo语言(语言+百分比),repo stargazers(以及他们的时区)。
因此,我的解决方案是检索最受欢迎的存储库,然后解析languages_url
和stargazers_url
以获取其信息。
我开始使用以下查询来检索常用的存储库:
SELECT
repo.name,
repo.id,
repo.url,
payload,
COUNT(*) watch_count,
JSON_EXTRACT_SCALAR(payload, '$.watch.action.repository.languages_url') AS repo_languages_url
FROM [githubarchive:month.201601],
WHERE type = 'WatchEvent'
GROUP BY 1,2,3,4,6
HAVING watch_count >= 2000 ORDER BY watch_count DESC
LIMIT 1000
监视事件的有效负载只是:{"action":"started"}
所以我没有得到有关存储库的语言和贡献者的任何信息。
有任何关于获取我正在寻找的信息的建议吗? 有没有办法在不解析的情况下检索那些信息?
提前致谢