我似乎根本不愿意拿走所有的幻灯片。
具有pdf和ppt填充的网站:http://some.uni.edu/~name/slides.html 我想一次性下载所有(许多)链接的文件。 到目前为止,目录是由wget创建的,但它是空的。
我尝试过:
wget -r -A.pdf,.ppt http://some.uni.edu/~name/slides.html
wget -e robots=off -A.pdf,.ppt -r -l1 http://some.uni.edu/~name/slides.html
wget -nd -l -r -e robots=off http://some.uni.edu/~name/slides.html
wget -r -np -R "slides.html" http://some.uni.edu/~name/slides.html
wget -r -np -R "slides.html" http://some.uni.edu/~name/
例如:
$ wget -r https://web.cs.ucla.edu/~kaoru/
--2018-10-29 21:38:50-- https://web.cs.ucla.edu/~kaoru/
Resolving web.cs.ucla.edu (web.cs.ucla.edu)... 131.179.128.29
Connecting to web.cs.ucla.edu (web.cs.ucla.edu)|131.179.128.29|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 623 [text/html]
Saving to: ‘web.cs.ucla.edu/~kaoru/index.html’
web.cs.ucla.edu/~ka 100%[===================>] 623 --.-KB/s in 0s
2018-10-29 21:38:51 (19.1 MB/s) - ‘web.cs.ucla.edu/~kaoru/index.html’ saved [623/623]
Loading robots.txt; please ignore errors.
--2018-10-29 21:38:51-- https://web.cs.ucla.edu/robots.txt
Reusing existing connection to web.cs.ucla.edu:443.
HTTP request sent, awaiting response... 200 OK
Length: 95 [text/plain]
Saving to: ‘web.cs.ucla.edu/robots.txt’
web.cs.ucla.edu/rob 100%[===================>] 95 --.-KB/s in 0s
2018-10-29 21:38:51 (3.10 MB/s) - ‘web.cs.ucla.edu/robots.txt’ saved [95/95]
--2018-10-29 21:38:51-- https://web.cs.ucla.edu/~kaoru/paper11.gif
Reusing existing connection to web.cs.ucla.edu:443.
HTTP request sent, awaiting response... 200 OK
Length: 10230 (10.0K) [image/gif]
Saving to: ‘web.cs.ucla.edu/~kaoru/paper11.gif’
web.cs.ucla.edu/~ka 100%[===================>] 9.99K --.-KB/s in 0.001s
2018-10-29 21:38:51 (12.3 MB/s) - ‘web.cs.ucla.edu/~kaoru/paper11.gif’ saved [10230/10230]
FINISHED --2018-10-29 21:38:51--
Total wall clock time: 0.9s
Downloaded: 3 files, 11K in 0.001s (12.2 MB/s)
仍然没有下载文件:
$ ls
$ index.html paper11.gif
答案 0 :(得分:1)
您的示例
wget -r -A.pdf,.ppt http://some.uni.edu/~name/slides.html
wget -e robots=off -A.pdf,.ppt -r -l1 http://some.uni.edu/~name/slides.html
wget -nd -l -r -e robots=off http://some.uni.edu/~name/slides.html
wget -r -np -R "slides.html" http://some.uni.edu/~name/slides.html
不应以您想要的方式工作,因为您专门针对单个html
文件,即slides.html
。您应该以目录为目标。
但是,您最后一个例子是我认为最接近的一个例子。
由于@Kingsley的示例适合您,因此您应该先尝试一下,然后再开始制作-R
和-A
文件。
wget -r http://some.uni.edu/~name/
也许应该是https
!?
无论如何,如果不允许“目录列表”(由服务器控制),则wget
不能递归获取所有文件。它只能获取您知道名称的特定文件!