标签: html web-crawler
是否有人知道我可以输入域名的任何程序,该程序将抓取整个域并能够为我下载所有HTML源代码 - 所以如果该站点在页面上有链接,那么将仅爬网到域名上的页面,而不是外部域名。
答案 0 :(得分:1)
看看python的scrapy:
http://www.scrapy.org
或java的crawler4j:
http://code.google.com/p/crawler4j/