如何在使用wget镜像站点时跳过选定的URL

时间:2012-05-11 08:39:29

标签: wget

我有以下问题。我需要镜像密码保护的网站。听起来很简单:

wget -m -k -K -E --cookies=on --keep-session-cookies --load-cookies=myCookies.txt http://mysite.com

在myCookies.txt中我保留了正确的会话cookie。这有效,直到wget到达注销页面 - 然后会话失效,实际上,进一步的镜像是无用的。

W试图添加--reject选项,但它只适用于文件类型 - 我只能阻止html文件下载或swf文件下载,我不能说

--reject http://mysite.com/*.php?type=Logout*

如何在wget中跳过某些网址?也许还有其他工具可以完成这项工作(必须在MS Windows上运行)。

2 个答案:

答案 0 :(得分:4)

如果您首次下载(甚至只是touch)退出页面,然后

,该怎么办?
wget --no-clobber --your-original-arguments

这应该跳过退出页面,因为它已经下载了

(免责声明:我自己没试过)

答案 1 :(得分:0)

我也遇到了这个问题,后来又这样解决:“-reject-regex注销”,更多内容:wget-devTips