我目前正在开展一个需要两个主要功能的项目:
仅从网站下载单个HTML页面(例如www.my website.com/index.html)
从网站下载每个HTML页面,递归排除外部链接(基本上下载整个网站)
我需要所有HTML页面中包含的所有图像和链接,而不仅仅是文本。
我目前正在使用scrapy进行这两项功能。它运作良好,但我想知道我是否会更好地使用wget或curl。
我的问题:
哪种工具最适合我实现目标?
答案 0 :(得分:3)
Wget可以做到这一点。
请参阅:http://www.linuxjournal.com/content/downloading-entire-web-site-wget
基本上
$ wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains website.org \
--no-parent \
www.website.org/tutorials/html/
--recursive
应保存链接
--page-requisites
应该保存css,图片等。
答案 1 :(得分:1)