我想在www.site.com/en/下载所有可访问的html文件。但是,网站上有大量链接的URL与帖子参数(例如,每个产品类别的页面1,2,3 ..)。我希望不要下载这些链接。我正在使用
-R "*\?*"
但它并不完美,因为它只会在下载后删除文件。
是否有某种方法可以过滤wget后使用正则表达式链接?
答案 0 :(得分:1)
可以避免使用正则表达式的那些文件,你必须使用--reject-regex '(.*)\?(.*)'
但它只适用于wget版本1.15,所以我建议你先检查你的wget版本。