应用错误收集

如何自动下载网站的html源代码

时间：2012-10-10 23:51:10

标签： html web-crawler

是否有人知道我可以输入域名的任何程序，该程序将抓取整个域并能够为我下载所有HTML源代码 - 所以如果该站点在页面上有链接，那么将仅爬网到域名上的页面，而不是外部域名。

1 个答案:

答案 0 :(得分：1)

看看python的scrapy：

http://www.scrapy.org

或java的crawler4j：

http://code.google.com/p/crawler4j/