我写了一个脚本来通知我网站上的更改。我使用wget下载网站html然后将其与过去下载的网站进行比较。问题是每隔几次检查一次网站<!--cached-->
就会在</html>
之后添加。我试图将-no-cache添加到wget但这没有任何区别。
为什么<!--cached-->
被随机添加到wget输出中?这是我可以做些什么来防止这种情况,还是我应该重新考虑一下我检查网站的方式?
答案 0 :(得分:1)
Oracle添加与此类似的标记,以指示可以从缓存提供的动态页面,以避免重新生成页面。它可能表示内容与您之前的阅读没有变化。你可以过滤掉它。
答案 1 :(得分:0)
在递归检索中使用--mirror
选项时可能会发生这种情况。
从文档中:
打开适用于镜像的选项。此选项打开递归 和时间戳,设置无限递归深度并保留FTP 目录列表。当前它等效于“ -r -N -l inf --no-remove-listing“。
对于timestamping这样的示例,html文件中每个打开的div标记之后的第一个条目都带有注释“!- cached -DDD,DD MMM YYY HH” :MM:SS +4位偏移量->“。