使用wget镜像网站,我需要摆脱动态网站日历的无限循环。 基本上我应该需要镜像所有网站
http://{site}/
但拒绝镜像此路径中的所有网址:
http://{site}/calendar/
除了
http://{site}/calendar/2014-10
http://{site}/calendar/2014-11
如何使用--reject-regex? 如果我运行类似的东西:
ACCEPT='.*(?!/calendar).*|.*calendar/2014-1[01].*'
wget -r -p --accept-regex=$ACCEPT http://{site}
我收到此错误:前面的正则表达式无效
答案 0 :(得分:1)
我猜你想出来了,但你必须把$ ACCEPT放在单引号中。该变量不包含必要的引号。
wget -r -p --accept-regex='$ACCEPT' http://{site}