将所有公共gitHub存储库列为链接

时间:2013-07-02 06:42:07

标签: github web-crawler archiving

我需要一个索引页面,它显示了指向所有gitHub存储库的链接。

我认为这就是为什么像Waybackmachine

这样的抓取工具找不到很多回购的原因

我认为如果有这样一个排名很高的网站,他们会开始抓取它

开发者网站sais,有一个Api for getting all repos

1 个答案:

答案 0 :(得分:4)

警告: GitHub拥有巨大数量的存储库。在设计索引时,您必须考虑到这一点。

我可以想到几个选项:

  • legacy GitHub search API 。您必须应对 API rate limit
  • 这个 StackOverflow answer 可以很好地掌握每种语言的回购数量。
  • 利用记录公共GitHub时间轴的 GitHub Archive 项目。 (注意:由于项目仅在2011年2月12日之前公布事件,因此您将无法获得有关自此日期以来未显示任何活动的存储库的任何数据。)