WGET:希望从站点获取所有文件/ pdf,创建目录,但未下载任何文件

时间:2018-10-25 22:48:16

标签: download wget

我似乎根本不愿意拿走所有的幻灯片。

具有pdf和ppt填充的网站:http://some.uni.edu/~name/slides.html 我想一次性下载所有(许多)链接的文件。 到目前为止,目录是由wget创建的,但它是空的。

我尝试过:

wget -r -A.pdf,.ppt http://some.uni.edu/~name/slides.html
wget -e robots=off -A.pdf,.ppt -r -l1 http://some.uni.edu/~name/slides.html
wget -nd -l -r -e robots=off http://some.uni.edu/~name/slides.html 
wget -r -np -R "slides.html" http://some.uni.edu/~name/slides.html  
wget -r -np -R "slides.html" http://some.uni.edu/~name/

例如:

$ wget -r https://web.cs.ucla.edu/~kaoru/
--2018-10-29 21:38:50--  https://web.cs.ucla.edu/~kaoru/
Resolving web.cs.ucla.edu (web.cs.ucla.edu)... 131.179.128.29
Connecting to web.cs.ucla.edu     (web.cs.ucla.edu)|131.179.128.29|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 623 [text/html]
Saving to: ‘web.cs.ucla.edu/~kaoru/index.html’

web.cs.ucla.edu/~ka 100%[===================>]     623  --.-KB/s    in 0s      

2018-10-29 21:38:51 (19.1 MB/s) -     ‘web.cs.ucla.edu/~kaoru/index.html’ saved [623/623]

Loading robots.txt; please ignore errors.
--2018-10-29 21:38:51--  https://web.cs.ucla.edu/robots.txt
Reusing existing connection to web.cs.ucla.edu:443.
HTTP request sent, awaiting response... 200 OK
Length: 95 [text/plain]
Saving to: ‘web.cs.ucla.edu/robots.txt’

web.cs.ucla.edu/rob 100%[===================>]      95  --.-KB/s        in 0s      

2018-10-29 21:38:51 (3.10 MB/s) - ‘web.cs.ucla.edu/robots.txt’ saved [95/95]

--2018-10-29 21:38:51--  https://web.cs.ucla.edu/~kaoru/paper11.gif
Reusing existing connection to web.cs.ucla.edu:443.
HTTP request sent, awaiting response... 200 OK
Length: 10230 (10.0K) [image/gif]
Saving to: ‘web.cs.ucla.edu/~kaoru/paper11.gif’

web.cs.ucla.edu/~ka 100%[===================>]   9.99K  --.-KB/s    in 0.001s  

2018-10-29 21:38:51 (12.3 MB/s) -     ‘web.cs.ucla.edu/~kaoru/paper11.gif’ saved [10230/10230]

FINISHED --2018-10-29 21:38:51--
Total wall clock time: 0.9s
Downloaded: 3 files, 11K in 0.001s (12.2 MB/s)

仍然没有下载文件:

$ ls 
$ index.html  paper11.gif

1 个答案:

答案 0 :(得分:1)

您的示例

wget -r -A.pdf,.ppt http://some.uni.edu/~name/slides.html
wget -e robots=off -A.pdf,.ppt -r -l1 http://some.uni.edu/~name/slides.html
wget -nd -l -r -e robots=off http://some.uni.edu/~name/slides.html 
wget -r -np -R "slides.html" http://some.uni.edu/~name/slides.html

不应以您想要的方式工作,因为您专门针对单个html文件,即slides.html。您应该以目录为目标。

但是,您最后一个例子是我认为最接近的一个例子。

由于@Kingsley的示例适合您,因此您应该先尝试一下,然后再开始制作-R-A文件。

wget -r http://some.uni.edu/~name/

也许应该是https!?

无论如何,如果不允许“目录列表”(由服务器控制),则wget不能递归获取所有文件。它只能获取您知道名称的特定文件!