如何自动下载网站的html源代码

时间:2012-10-10 23:51:10

标签: html web-crawler

是否有人知道我可以输入域名的任何程序,该程序将抓取整个域并能够为我下载所有HTML源代码 - 所以如果该站点在页面上有链接,那么将仅爬网到域名上的页面,而不是外部域名。

1 个答案:

答案 0 :(得分:1)

看看python的scrapy:

http://www.scrapy.org

或java的crawler4j:

http://code.google.com/p/crawler4j/