我正在尝试使用wget下载许多文件(~30,000),所有文件都在以下网页中:
http://galex.stsci.edu/gr6/?page=tilelist&survey=ais&showall=Y
但是,单击Fits
后,实际数据位于子链接下,然后显示此子链接下的某个文件。例如,第一个文件的子链接如下:
http://galex.stsci.edu/gr6/?page=downloadlist&tilenum=50270&type=coaddI&subvis=28&img=1
我只想在此子链接中下载一个文件:Intensity Map
带NUV
。在上面这种情况下,它是我要下载的第二个文件。
所有文件都具有相同的结构。我如何使用wget下载子链接下的所有文件?
答案 0 :(得分:1)
乐队 NUV 文件的强度地图有一个共同的结尾,这应该允许您在目标网站上仅使用wget -r -A "*nd-int.fits.gz"
下载所需的文件。这采用了wget的递归函数-r
和接受列表函数-A
。概述here的Accept List功能只会根据扩展名,名称或命名约定下载所需的文件。 wget递归函数是否可以成功抓取整个目标网站,这是您必须要测试的。
如果上述方法无效,网站似乎有一些方便的工具可用于过滤可用文件,例如catalog search。