Question

我目前正在开展一个需要两个主要功能的项目：

仅从网站下载单个HTML页面（例如www.my website.com/index.html）
从网站下载每个HTML页面，递归排除外部链接（基本上下载整个网站）

我需要所有HTML页面中包含的所有图像和链接，而不仅仅是文本。

我目前正在使用scrapy进行这两项功能。它运作良好，但我想知道我是否会更好地使用wget或curl。

我的问题：

哪种工具最适合我实现目标？

Answer 1

Wget可以做到这一点。

请参阅：http://www.linuxjournal.com/content/downloading-entire-web-site-wget

基本上

$ wget \
 --recursive \
 --no-clobber \
 --page-requisites \
 --html-extension \
 --convert-links \
 --restrict-file-names=windows \
 --domains website.org \
 --no-parent \
     www.website.org/tutorials/html/

--recursive应保存链接

--page-requisites应该保存css，图片等。

Answer 2

1。 wget可以做到这一点，但可以通过使用其他工具轻松完成

wget -m -k -K -E -p http://url/of/web/site

-p用于下载资产。如果您要抓取某些第三方网站，可以添加等级选项-w 10 --random-wait。

2。 HTTRACK是复制整个网站内容的有效方式。该工具能够获取使工作代码内容的网站脱机工作所必需的部分。

WebCopier。

Scrapy VS wget VS curl

2 个答案: