我正在尝试使用wget工具下载网站的内容。我使用-R选项来拒绝某些文件类型。但是还有其他一些我不想下载的文件。这些文件的名称如下,没有任何扩展名。
string-ID
例如:
newsbrief-02
如何告诉wget不要下载这些文件(名称以指定字符串开头的文件)?
答案 0 :(得分:29)
由于(显然)v1.14 wget
接受正则表达式:--reject-regex
和--accept-regex
(默认情况下为--regex-type posix
,如果pcre
,则可以设置为libpcre
使用--reject-regex
支持编译。
请注意,每wget
次来电,您只能使用|
一次。也就是说,如果要在多个正则表达式中选择,则必须在单个正则表达式中使用wget --reject-regex 'expr1|expr2|…' http://example.com
:
{{1}}
答案 1 :(得分:7)
您无法在wget -R
键中指定正则表达式,但可以指定模板(如shell中的文件模板)。
答案如下:
$ wget -R 'newsbrief-*' ...
您还可以使用?
和符号类[]
。
有关详细信息,请参阅info wget。