应用错误收集

时间：2009-12-11 03:49:04

标签： http url http-status-codes canonicalization

对于搜索机器人，我正在设计一个设计：
*比较URI和
*确定哪些URI实际上是同一页

处理重定向和别名：
案例1：重定向
案例2：别名，例如WWW
案例3：网址参数，例如sukshma.net/node#parameter

我有两种方法可以遵循，一种方法是明确检查重定向以捕获案例＃1。另一种方法是“硬编码”别名，例如www，适用于案例＃2。第二种方法（硬编码）别名很脆弱。 HTTP的URL规范未提及使用www作为别名（RFC 2616）

我还打算使用Canonical元标记（HTTP / HTML），但如果我理解正确 - 我不能依赖标记在所有情况下。

分享您自己的经验。您是否知道用于检测搜索机器人重复项的参考白皮书实现？

答案 0 :(得分：0)

构建自己的网络抓取工具是lot of work。请考虑查看一些已有的开源蜘蛛，例如JSpider，OpenWebSpider或many others。

答案 1 :(得分：0)

只需检查HTTP status code 即可解决第一种情况。

对于第二和第三个案例维基百科解释得非常好： URL Normalization / Canonicalization 。