如何使用--reject-regex过滤wget跟踪链接?

时间:2016-11-29 14:14:08

标签: regex wget

我正在尝试使用wget镜像本地存档的网站。一切运行良好(auth标头等),除了编写网站以致在某个URL上调用GET方法删除资源,例如访问

http://site.domain.com/users/Delete/{uid}

删除id = uid的用户。我希望wget关注网站上的所有链接,指望包含模式"/Delete/"的链接。

根据GNU wget manual,您可以使用wget --reject-regex过滤网址。我使用的是wget版本1.15,它没有使用libpcre支持进行编译,所以我尝试使用这样的标准POSIX ERE(以及其他尝试):

wget --reject-regex='.*Delete.*' -P /path_to_mirror_dir/ -k -p -m -E -c -rH -Dsite.domain.com https://site.domain.com/Home/see explainshell

根据答案herehere。但是,仍在遵循URL,因此删除了资源。

是否可以使用reject-regex过滤后续网址?

P.S。我简要地查看了httrack,但在我看不清楚如何明确发送HTTP标头时没有进一步调查。另外,我想了解这个wget选项。

2 个答案:

答案 0 :(得分:0)

wget --exclude-directories='*/Delete' -P /path_to_mirror_dir/ -k -p -m -E -c -rH -Dsite.domain.com https://site.domain.com/Home/

Explainshell

应该做的伎俩

答案 1 :(得分:0)

好。问题是recursive accept/reject options仅适用 cal.add(Calendar.SECOND, 32700); System.out.println(cal.getTime()); String output = outputFormat.format(date); System.out.println(output); String output2 = outputFormat.format(cal.getTime()); System.out.println(output2); } catch (ParseException e) { e.printStackTrace(); } (正如预期的那样),但--recursive (-r)选项取代它,因此--mirror (-m)模式被忽略。因此,有效的命令是

--reject-regex