Question

我正在使用此wget命令从that URL下载所有.fits文件：

wget -r -np -nd -l inf -A fits https://archive.stsci.edu/missions/tess/ete-6/tid/00/000/000/057/

这是基于this answer的改编。

所有我得到的是一个目录结构，它反映了网站上的URI一直到/ 057 /，但是没有文件。

如果我添加-nd，那么我只会获得一个不太有启发性但仍然没有文件的robot.txt文件。

我没有得到关于如何使用wget的内容？

编辑：基于Turgbek在下面的回答，我确实看到该网站上的robot.txt文件实际上在“Disallow”中有/ tasks / ...也许这是阻止我使用wget命令的原因？这是问题的根源吗？我怎么能解决这个问题？

Answer 1

在robots.txt中有一个声明：

禁止：/ mission /

您所请求的文件位于哪个位置。由于网址建立为/missions/tess/ete-6/tid/00/000/000/057/，我认为robots.txt阻止了您。

我在Raspberry Pi中保存了该网址中的两个文件，并在没有robots.txt的情况下运行了本地测试。使用此命令：

wget -r -np -nd -l inf -A符合192.168.1.250/test /

它按预期工作，我收到了两个文件。

--2018-05-03 23:46:51--  http://192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits'

100%[==============================================================================>] 2,090,880   3.77M/s   in 0.5s

2018-05-03 23:46:51 (3.77 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits' saved [2090880/2090880]

--2018-05-03 23:46:51--  http://192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits'

100%[==============================================================================>] 2,090,880   4.61M/s   in 0.4s

2018-05-03 23:46:52 (4.61 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits' saved [2090880/2090880]

Wget - 下载网页中的所有文件？

1 个答案: