wget文件来自类似FTP的列表

时间:2013-06-14 12:15:28

标签: wget

因此,以前使用FTP的站点现在有一个HTTP前端,不允许FTP连接。 site in question(对于示例目录)将显示包含指向不同日期的链接的页面。在这些不同的日期中,有许多文件,我通常只需要获得一些具有明确模式的文件,例如: *h17v04*.hdf。我认为这可行:

wget -I "${PLATFORM}/${PRODUCT}/${YEAR}.*" -r -l 4 \
   --user-agent="Mozilla/5.0 (Windows NT 5.2; rv:2.0.1) Gecko/20100101 Firefox/4.0.1" \
   --verbose -c -np -nc -nd  \
   -A "*h17v04*.hdf" http://e4ftl01.cr.usgs.gov/$PLATFORM/$PRODUCT/

例如,PLATFORM=MOLTPRODUCT=MOD09GA.005YEAR=2004。这似乎开始查看所有有用的日期,找到index.html,然后只是跳到下一个目录,而不下载相关的hdf文件:

--2013-06-14 13:09:18--  http://e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/
Reusing existing connection to e4ftl01.cr.usgs.gov:80.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html'

[    <=>                                                                                                                                  ] 174,182      134K/s   in 1.3s    

2013-06-14 13:09:20 (134 KB/s) -  `e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html' saved [174182]

Removing e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html since it should be rejected.

--2013-06-14 13:09:20--  http://e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.02/
[...]

如果我忽略了-A选项,只会将index.html文件下载到我的系统,但它似乎没有被解析,并且没有遵循链接。我真的不知道还有什么需要做这项工作,因为我不明白为什么它没有!!!

最后,问题是由于本地版本的wget中存在旧错误。但是,我最终编写了自己的脚本,用于从上面的服务器下载MODIS数据。该脚本是纯Python,可从here获得。

1 个答案:

答案 0 :(得分:0)

考虑使用pyModis而不是wget,这是一个基于Free和Open Source Python的库来处理MODIS数据。它提供用户选择的时间范围的批量下载,MODIS瓦片的镶嵌,以及从正弦曲线到其他投影的重投影,将HDF格式转换为其他格式。参见

http://pymodis.fem-environment.eu/