使用curl列出文件

时间:2013-09-13 07:09:35

标签: regex curl

我正在尝试列出此网站上的所有gz文件

site=http://ftp.ebi.ac.uk/pub/databases/uniprot/current_release/rdf/
curl -s "$site" --list-only | sed -n 's%.*href="rdf/uni([^"]*\.rdf.gz)".*%\1%p'

但是我收到了这个错误:

sed: -e expression #1, char 40: invalid reference \1 on `s' command's RHS

1 个答案:

答案 0 :(得分:4)

我会避免regex解析html。在这里,您可以使用mojolicious作为解析器:

perl -Mojo -E '
    g(q|http://ftp.ebi.ac.uk/pub/databases/uniprot/current_release/rdf/|)
    ->dom
    ->find(q|a|)
    ->each(sub { 
        my $t =  $_->text; 
        say $t if $t =~ m/rdf\.gz\Z/ 
    })'

但如果你坚持使用,那么你的正则表达式会有一些问题。首先,必须转义括号以进行分组。其次,rdf/uni不匹配。第三,当您执行[^"]*时,它会绕过扩展程序rdf.gz。更改它以查找.,然后检查扩展名,但我记得那是非常脆弱的。它可能在许多方面失败,例如,名称中包含.的文件:

curl -s "$site" --list-only | sed -n 's%.*href="\([^.]*\.rdf\.gz\)".*%\n\1%; ta; b; :a; s%.*\n%%; p'

两个命令都会产生:

citations.rdf.gz
databases.rdf.gz
diseases.rdf.gz
enzyme.rdf.gz
go.rdf.gz
journals.rdf.gz
keywords.rdf.gz
locations.rdf.gz
pathways.rdf.gz
taxonomy.rdf.gz
tissues.rdf.gz
uniparc.rdf.gz
uniprot.rdf.gz
uniref.rdf.gz