随机抽样Github存储库

时间:2013-02-24 18:38:24

标签: python github random-sample

我正在寻找从Github随机抽样回购的解决方案。最终结果是对样本进行一些数据分析。

我想要做的是通过存储库的id进行采样:对0到270万之间的int进行采样并找到相关的存储库。在我拥有用户名/ repo-name后,我将使用api获取详细信息。

问题是我不知道如何通过repo id进行搜索。有什么建议?我对Webscrapping或Python解决方案持开放态度。

1 个答案:

答案 0 :(得分:1)

您可以使用python访问GitHUb V3 Api(如“Most suitable python library for Github API v3”中所示)。

你可以access GitHub repos,从某个id(GET /repositories,带有as参数,你看到的最后一个存储库的整数ID:这样就可以提供一种迂回的方式来访问repos他们的身份。