指纹和验证html结构的最佳方法

时间:2009-09-29 05:22:49

标签: c# html algorithm verification fingerprint

我只想知道您对如何指纹/验证html /链接结构有什么看法。

我想解决的问题是:指纹,例如10个不同的网站,html页面。 过了一段时间我想有可能验证它们,所以,如果网站被更改,链接改变,验证失败,其他验证成功。我的基本想法是通过以某种方式分割链接结构,做某种树,并从该树生成某种代码来分析链接结构。但我仍然处于头脑风暴阶段,我需要与某人讨论这个问题,并了解其他想法。

所以任何想法,算法和建议都会有用。

3 个答案:

答案 0 :(得分:1)

您可以随时对网站的原始HTML进行哈希并进行比较。我相信网站可以维持“最后编辑”的日期,但不确定是否始终更新。

编辑:我的错误,这只是将网站与之前版本进行比较的一种方式,但并不是真的以你的方式指纹。

答案 1 :(得分:1)

把它扔到那里:

为什么不抓取网站,将所有链接放入代表网站地图的XML文档中。

在该文件上创建MD5校验和并存储它。然后,在将来的任何时候您都可以重新抓取,重新创建XML,重做校验和并将其与早期的校验和进行比较。

如果它们不匹配,则链接结构已更改 - 尽管您不一定知道在哪里。

答案 2 :(得分:0)

无论您想要散列,汇总和指纹的数据或结构如何,请务必在“外面”的许多网站上考虑各种形式的噪音。

此类噪音或随机内容的示例如下:

  • 公司股票价值股票代码
  • 他们所在城市的天气状况
  • 多个页面的页脚或标题中有当前(现在)日期时间
  • 广告内容(越来越多的内容会让网站看起来像土着以阻止网络浏览器上的广告拦截器)