当我尝试使用wget --accept
选项时,它实际上会下载
文件然后删除它们,如果他们不匹配模式。在我看来
应该不要首先遵循匹配模式的URL。在那儿
一种启用此行为的方法?
这是一个示例命令,我尝试下载从特定网址链接的所有文件,但只搜索与几种模式相匹配的文件:
wget \
--directory-prefix=/Users/kueda/tmp \
--recursive \
--accept="*Plates.shtml,*fast.php,gif,png,css,js" \
"http://example.com/foo.php?key=value"
我得到像
这样的输出--2014-07-21 18:06:05-- http://example.com/huh.html
Reusing existing connection to example.com:80.
HTTP request sent, awaiting response... 200 OK
Length: 6247 (6.1K) [text/html]
Saving to: `/Users/kueda/tmp/example.com/huh.html'
100%[=====================================>] 6,247 --.-K/s in 0.02s
2014-07-21 18:06:05 (304 KB/s) - `/Users/kueda/tmp/example.com/huh.html' saved [6247/6247]
Removing /Users/kueda/tmp/example.com/huh.html since it should be rejected.
我已经尝试了httrack
,但似乎有相同的行为。我猜测我错过了选项b / c这看起来很荒谬。 FWIW我使用基于darwin11.2.0的GNU Wget 1.13.4。