我想在GitHub上抓取某种项目,说我想抓取由特定作者和bla bla约束创建的源代码。是否有任何插件可供Nutch抓取此信息或获取整个存储库的最佳方式。
我甚至想使用Nutch抓取公开托管版本控制系统的版本。有没有可用的插件。
答案 0 :(得分:2)
Github附带了一个JSON API。使用存储库API获取特定用户的存储库列表,然后克隆它们。应该是几行的问题。
请参阅API文档here。
答案 1 :(得分:1)
Nutch是一个基于Lucene后端的Apache制作的搜索引擎。
看看github的robots.txt文件: https://github.com/robots.txt
除了特定的引擎(例如谷歌),它说:
User-agent: *
Disallow: /
因此,您无法使用Nutch抓取GitHub。
使用搜索引擎抓取github似乎是一个坏主意。你将无缘无故地下载很多类似的页面。 GitHub的搜索出了什么问题?
请尝试概括您的问题。你希望通过使用Nutch抓取github来实现什么目标?您想要执行哪种搜索?