如何在wget中使用正则表达式来拒绝文件?

时间:2012-06-27 17:19:45

标签: regex linux wget downloading

我正在尝试使用wget工具下载网站的内容。我使用-R选项来拒绝某些文件类型。但是还有其他一些我不想下载的文件。这些文件的名称如下,没有任何扩展名。

string-ID

例如:

newsbrief-02

如何告诉wget不要下载这些文件(名称以指定字符串开头的文件)?

2 个答案:

答案 0 :(得分:29)

由于(显然)v1.14 wget接受正则表达式:--reject-regex--accept-regex(默认情况下为--regex-type posix,如果pcre,则可以设置为libpcre使用--reject-regex支持编译。

请注意,每wget次来电,您只能使用|一次。也就是说,如果要在多个正则表达式中选择,则必须在单个正则表达式中使用wget --reject-regex 'expr1|expr2|…' http://example.com

{{1}}

答案 1 :(得分:7)

您无法在wget -R键中指定正则表达式,但可以指定模板(如shell中的文件模板)。

答案如下:

$ wget -R 'newsbrief-*' ...

您还可以使用?和符号类[]

有关详细信息,请参阅info wget