刮google codeSEARCH

时间:2010-03-24 18:22:44

标签: web-scraping web-crawler

问:关于编程工具/脚本的建议,以自动从Google代码搜索结果中提取所有项目文件? 注意:问题是专门用于代码搜索:  http://www.google.com/codesearch 而不是已经拥有repositary访问权限的“谷歌代码”。

动机:一个开源项目官方网站早已没有任何联系导致追逐重振它。项目文件仍然可用,但仅限于谷歌代码搜索结果(暂时)。不幸的是,有太多的文件可以切割,并且可以一个一个地手动填充它们。

欢迎所有想法,谢谢!

编辑:到目前为止找到的最近参考: groups.google.com/group/google-code-search/browse_thread/thread/f643b42934ea75c9/974f99c5cd907e8e#974f99c5cd907e8e

1 个答案:

答案 0 :(得分:1)

听起来你需要利用wget