选择没有LICENSE文件的项目

时间:2016-10-14 23:34:42

标签: google-bigquery

出于研究目的,我想选择根目录中没有任何LICENSE相关文件的github项目。使用此代码,我可以选择LICENSE文件,

SELECT repo_name FROM [bigquery-public-data:github_repos.files] WHERE path = "license"

但我怎么能表达"没有"句子?

2 个答案:

答案 0 :(得分:0)

[bigquery-public-data:github_repos]数据集上的每个repo都有一个LICENSE文件,因为只有具有已知和可检测许可证的repos已被镜像。

根据您的目标,您可能会找到所需的数据:

并查找不在https://bigquery.cloud.google.com/table/bigquery-public-data:github_repos.licenses中的项目。

答案 1 :(得分:0)

根据Felipe Hoffa的建议,我最终得到了这个问题:

SELECT url FROM [ghtorrent-bq:ght.projects] WHERE url not in (SELECT CONCAT("https://api.github.com/repos/", repo_name) FROM [bigquery-public-data:github_repos.licenses]) limit 100000

我必须限制否则bigquery说它无法解析所有这些数据。