我正在使用此wget命令从that URL下载所有.fits文件:
wget -r -np -nd -l inf -A fits https://archive.stsci.edu/missions/tess/ete-6/tid/00/000/000/057/
这是基于this answer的改编。
所有我得到的是一个目录结构,它反映了网站上的URI一直到/ 057 /,但是没有文件。
如果我添加-nd,那么我只会获得一个不太有启发性但仍然没有文件的robot.txt文件。
我没有得到关于如何使用wget的内容?
编辑:基于Turgbek在下面的回答,我确实看到该网站上的robot.txt文件实际上在“Disallow”中有/ tasks / ...也许这是阻止我使用wget命令的原因?这是问题的根源吗?我怎么能解决这个问题?答案 0 :(得分:0)
在robots.txt
中有一个声明:
禁止:/ mission /
您所请求的文件位于哪个位置。由于网址建立为/missions/tess/ete-6/tid/00/000/000/057/
,我认为robots.txt
阻止了您。
我在Raspberry Pi中保存了该网址中的两个文件,并在没有robots.txt
的情况下运行了本地测试。使用此命令:
wget -r -np -nd -l inf -A符合192.168.1.250/test /
它按预期工作,我收到了两个文件。
--2018-05-03 23:46:51-- http://192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits'
100%[==============================================================================>] 2,090,880 3.77M/s in 0.5s
2018-05-03 23:46:51 (3.77 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits' saved [2090880/2090880]
--2018-05-03 23:46:51-- http://192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits'
100%[==============================================================================>] 2,090,880 4.61M/s in 0.4s
2018-05-03 23:46:52 (4.61 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits' saved [2090880/2090880]