如何使用shell脚本从网站中找出最新的文件名

时间:2014-01-24 07:01:42

标签: shell freebase

我是Shell Scripting的新手,面临以下问题。我想从http://commondatastorage.googleapis.com/freebase-public/站点下载最新的freebase转储。我知道文件名格式 - freebase-rdf-.gz,例如freebase-rdf-2014-01-12-00-00.gz。

我检查了“wget”命令获取文件。但是我的问题是我需要找出最新的数据转储,然后运行wget命令从站点下载文件。我检查了wget命令不接受正则表达式。

任何人都可以帮我解决这个问题吗?

2 个答案:

答案 0 :(得分:0)

您可以使用wget:

的时间戳功能

http://www.gnu.org/software/wget/manual/html_node/Time_002dStamping.html#Time_002dStamping

存储您的最新下载和wget关心以获得更新的一次。

或者您可以获得目录listig(http://www.editcorp.com/Personal/Lars_Appel/wget/v1/wget_7.html

If you specify a directory, Wget will retrieve the directory listing, parse it and convert it to HTML. Try:
wget ftp://prep.ai.mit.edu/pub/gnu/
lynx index.html

将其解析为localy,对其进行排序并获取wget调用的最后结果。

答案 1 :(得分:0)

最新版本似乎位于名为freebase-rdf-latest.gz的文件中。要使用wget获取它,请使用:

wget http://commondatastorage.googleapis.com/freebase-public/rdf/freebase-rdf-latest.gz