我只想知道您对如何指纹/验证html /链接结构有什么看法。
我想解决的问题是:指纹,例如10个不同的网站,html页面。 过了一段时间我想有可能验证它们,所以,如果网站被更改,链接改变,验证失败,其他验证成功。我的基本想法是通过以某种方式分割链接结构,做某种树,并从该树生成某种代码来分析链接结构。但我仍然处于头脑风暴阶段,我需要与某人讨论这个问题,并了解其他想法。
所以任何想法,算法和建议都会有用。
答案 0 :(得分:1)
您可以随时对网站的原始HTML进行哈希并进行比较。我相信网站可以维持“最后编辑”的日期,但不确定是否始终更新。
编辑:我的错误,这只是将网站与之前版本进行比较的一种方式,但并不是真的以你的方式指纹。
答案 1 :(得分:1)
把它扔到那里:
为什么不抓取网站,将所有链接放入代表网站地图的XML文档中。
在该文件上创建MD5校验和并存储它。然后,在将来的任何时候您都可以重新抓取,重新创建XML,重做校验和并将其与早期的校验和进行比较。
如果它们不匹配,则链接结构已更改 - 尽管您不一定知道在哪里。
答案 2 :(得分:0)
无论您想要散列,汇总和指纹的数据或结构如何,请务必在“外面”的许多网站上考虑各种形式的噪音。
此类噪音或随机内容的示例如下: