我正在尝试使用wget
镜像本地存档的网站。一切运行良好(auth标头等),除了编写网站以致在某个URL上调用GET方法删除资源,例如访问
http://site.domain.com/users/Delete/{uid}
删除id = uid的用户。我希望wget
关注网站上的所有链接,指望包含模式"/Delete/"
的链接。
根据GNU wget manual,您可以使用wget --reject-regex
过滤网址。我使用的是wget
版本1.15,它没有使用libpcre支持进行编译,所以我尝试使用这样的标准POSIX ERE(以及其他尝试):
wget --reject-regex='.*Delete.*' -P /path_to_mirror_dir/ -k -p -m -E -c -rH -Dsite.domain.com https://site.domain.com/Home/
(see explainshell)
根据答案here和here。但是,仍在遵循URL,因此删除了资源。
是否可以使用reject-regex
过滤后续网址?
P.S。我简要地查看了httrack,但在我看不清楚如何明确发送HTTP标头时没有进一步调查。另外,我想了解这个wget
选项。
答案 0 :(得分:0)
wget --exclude-directories='*/Delete' -P /path_to_mirror_dir/ -k -p -m -E -c -rH -Dsite.domain.com https://site.domain.com/Home/
应该做的伎俩
答案 1 :(得分:0)
好。问题是recursive accept/reject options仅适用 cal.add(Calendar.SECOND, 32700);
System.out.println(cal.getTime());
String output = outputFormat.format(date);
System.out.println(output);
String output2 = outputFormat.format(cal.getTime());
System.out.println(output2);
}
catch (ParseException e)
{
e.printStackTrace();
}
(正如预期的那样),但--recursive (-r)
选项取代它,因此--mirror (-m)
模式被忽略。因此,有效的命令是
--reject-regex