出于研究目的,我想选择根目录中没有任何LICENSE相关文件的github项目。使用此代码,我可以选择LICENSE文件,
SELECT repo_name
FROM [bigquery-public-data:github_repos.files]
WHERE path = "license"
但我怎么能表达"没有"句子?
答案 0 :(得分:0)
[bigquery-public-data:github_repos]数据集上的每个repo都有一个LICENSE文件,因为只有具有已知和可检测许可证的repos已被镜像。
根据您的目标,您可能会找到所需的数据:
并查找不在https://bigquery.cloud.google.com/table/bigquery-public-data:github_repos.licenses中的项目。
答案 1 :(得分:0)
根据Felipe Hoffa的建议,我最终得到了这个问题:
SELECT url
FROM [ghtorrent-bq:ght.projects]
WHERE url not in
(SELECT CONCAT("https://api.github.com/repos/", repo_name)
FROM [bigquery-public-data:github_repos.licenses])
limit 100000
我必须限制否则bigquery说它无法解析所有这些数据。