我正在尝试使用wget下载wiki的静态镜像。我只想要每篇文章的最新版本(不是完整的历史记录或版本之间的差异)。下载整个内容并稍后删除不必要的页面会很容易,但这样做会花费太多时间并给服务器带来不必要的压力。
我有很多页面显然不需要,例如:
?WhoIsDoingWhat行动= DIFF&安培;日期= 1184177979
有没有办法告诉wget不要下载并递归其中包含'action = diff'的网址?或者以其他方式排除与某些正则表达式匹配的网址?
答案 0 :(得分:3)
-R '*action=diff*,*action=edit*'