Question

我想在www.site.com/en/下载所有可访问的html文件。但是，网站上有大量链接的URL与帖子参数（例如，每个产品类别的页面1,2,3 ..）。我希望不要下载这些链接。我正在使用

-R "*\?*"

但它并不完美，因为它只会在下载后删除文件。

是否有某种方法可以过滤wget后使用正则表达式链接？

Answer 1

可以避免使用正则表达式的那些文件，你必须使用--reject-regex '(.*)\?(.*)'但它只适用于wget版本1.15，所以我建议你先检查你的wget版本。