为什么<! - cached - >被随机添加到wget输出中?

时间:2013-01-06 01:47:03

标签: bash wget

我写了一个脚本来通知我网站上的更改。我使用wget下载网站html然后将其与过去下载的网站进行比较。问题是每隔几次检查一次网站<!--cached-->就会在</html>之后添加。我试图将-no-cache添加到wget但这没有任何区别。

为什么<!--cached-->被随机添加到wget输出中?这是我可以做些什么来防止这种情况,还是我应该重新考虑一下我检查网站的方式?

2 个答案:

答案 0 :(得分:1)

Oracle添加与此类似的标记,以指示可以从缓存提供的动态页面,以避免重新生成页面。它可能表示内容与您之前的阅读没有变化。你可以过滤掉它。

答案 1 :(得分:0)

在递归检索中使用--mirror选项时可能会发生这种情况。 从文档中:

打开适用于镜像的选项。此选项打开递归 和时间戳,设置无限递归深度并保留FTP 目录列表。当前它等效于“ -r -N -l inf --no-remove-listing“。

对于timestamping这样的示例,html文件中每个打开的div标记之后的第一个条目都带有注释“!- cached -DDD,DD MMM YYY HH” :MM:SS +4位偏移量->“。