在文件路径中处理'#'符号

时间:2013-05-16 22:33:11

标签: wget

我需要从链接下载一些tif文件:http://ntsg.umt.edu/project/mod17#data-product

我将路径和文件名存储在wget目录中的文本文件中,但数据未正确下载。我相信文件路径中的'#'符号就是问题。

例如在文本文件(temp.txt)中保留:http://ntsg.umt.edu/project/mod17#data-product/MOD17A2_GPP.2008.M02.tif,然后发出命令:wget -i temp.txt没有正确下载所需的文件。请帮我解决这个问题。我尝试使用反斜杠符号作为'#',但它也不起作用。

当我浏览文件夹时,上面的网页链接不会改变,可以通过以下路径访问保存所需tif文件的子文件夹。  /pub/MODIS/NTSG_Products/MOD17/GeoTIFF/Monthly_MOD17A2/GeoTIFF_0.05degree /

1 个答案:

答案 0 :(得分:1)

'#'确实提出了一些有趣的问题,因为必须小心引用反斜杠或围绕'...'或“......”。让我们看看发生了什么。另一个问题是“#...”语法在URL中是特殊的,并且不是Web服务器上基础文件名的一部分。

wget -nd -np -nH 'http://ntsg.umt.edu/project/mod17#data-product/MOD17A2_GPP.2008.M02.tif' -O temp.txt

temp.txt文件存在,但没有特定的基本路径,所以几乎所有的URL都会尝试用太天真的命令命中本地文件系统 - 我们需要使用{{1 }}

--base=http://ntsg.umt.edu/project/mod17

这会下载原始mod17文档引用的大量文件,但几乎可以肯定不是您正在寻找的内容。

从您的问题来看,您似乎在查找“数据产品”部分中找到的单个文件,并且需要通过复制位置栏来获取URL,而是通过右键单击(在Firefox,例如)你想要的文件并使用“复制链接位置”。将结果粘贴到某处应该为您提供需要提供给wget -nd -np -nH --base=http://ntsg.umt.edu/project/mod17 --force-html --input-file temp.txt 的字符串。同样的方法允许您右键单击“Up to higher level目录”链接以获取它们的位置,然后可能使用wget的递归获取功能来获取其中的内容。

祝你好运。