Wget:如果文件已经存在,请跳过下载?

时间:2015-10-18 22:21:08

标签: wget

Skip download if files exist in wget?的答案表示使用-nc--no-clobber,但-nc并不会阻止发送HTTP请求并随后下载文件。如果文件已被完全检索,则在下载文件后它不会执行任何操作。无论如何,如果文件已存在,是否阻止发出HTTP请求?

我安装了wget 1.16.3 with Homebrew。运行以下命令后,wget针对已存在的每个文件说making HTTP request之类的内容,似乎下载了它,然后说出类似:file already retrieved, nothing to do

wget --user-agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12' \
     --tries=1 \
     --no-clobber \
     --continue \
     --wait=0.3 \
     --random-wait \
     --adjust-extension \
     --load-cookies cookies.txt \
     --save-cookies cookies.txt \
     --keep-session-cookies \
         --recursive \
         --level=inf \
         --convert-links \
         --page-requisites \
         --reject=edit,logout,rate \
         --domains=example.com,s3.amazonaws.com \
         --span-hosts \
         --exclude-directories=/admin \
     http://example.com/

2 个答案:

答案 0 :(得分:4)

-nc选项符合您的要求,至少在wget 1.19.1中。

在我的服务器上,我有一个名为index.html的文件,其中包含指向a.htmlb.html的链接。

$ wget -r -nc http://127.0.0.1:8000/

服务器日志显示:

127.0.0.1 - - [23/Mar/2017 17:51:25] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [23/Mar/2017 17:51:25] "GET /robots.txt HTTP/1.1" 404 -
127.0.0.1 - - [23/Mar/2017 17:51:25] "GET /a.html HTTP/1.1" 200 -
127.0.0.1 - - [23/Mar/2017 17:51:25] "GET /b.html HTTP/1.1" 200 -

现在我删除b.html并再次运行:

$ rm 127.0.0.1\:8000/b.html
$ wget -r -nc http://127.0.0.1:8000/

服务器日志显示:

127.0.0.1 - - [23/Mar/2017 17:51:38] "GET /robots.txt HTTP/1.1" 404 -
127.0.0.1 - - [23/Mar/2017 17:51:38] "GET /b.html HTTP/1.1" 200 -

如您所见,只有b.html的请求。

答案 1 :(得分:3)

看来您使用的是不兼容的选项,我在wget 1.16 linux上收到以下警告:

$ wget --no-clobber --convert-links http://example.com
Both --no-clobber and --convert-links were specified, only --convert-links will be used.