爬行版本控制系统

时间:2012-01-11 09:15:07

标签: git svn version-control nutch web-crawler

我想在GitHub上抓取某种项目,说我想抓取由特定作者和bla bla约束创建的源代码。是否有任何插件可供Nutch抓取此信息或获取整个存储库的最佳方式。

我甚至想使用Nutch抓取公开托管版本控制系统的版本。有没有可用的插件。

2 个答案:

答案 0 :(得分:2)

Github附带了一个JSON API。使用存储库API获取特定用户的存储库列表,然后克隆它们。应该是几行的问题。

请参阅API文档here

答案 1 :(得分:1)

Nutch是一个基于Lucene后端的Apache制作的搜索引擎。

看看github的robots.txt文件: https://github.com/robots.txt

除了特定的引擎(例如谷歌),它说:

User-agent: *
Disallow: /

因此,您无法使用Nutch抓取GitHub。

使用搜索引擎抓取github似乎是一个坏主意。你将无缘无故地下载很多类似的页面。 GitHub的搜索出了什么问题?

请尝试概括您的问题。你希望通过使用Nutch抓取github来实现什么目标?您想要执行哪种搜索?