比较搜索机器人的URI?

时间:2009-12-11 03:49:04

标签: http url http-status-codes canonicalization

对于搜索机器人,我正在设计一个设计:
*比较URI和
*确定哪些URI实际上是同一页

处理重定向和别名:
案例1:重定向
案例2:别名,例如WWW
案例3:网址参数,例如sukshma.net/node#parameter

我有两种方法可以遵循,一种方法是明确检查重定向以捕获案例#1。另一种方法是“硬编码”别名,例如www,适用于案例#2。第二种方法(硬编码)别名很脆弱。 HTTP的URL规范未提及使用www作为别名(RFC 2616)

我还打算使用Canonical元标记(HTTP / HTML),但如果我理解正确 - 我不能依赖标记在所有情况下。

分享您自己的经验。您是否知道用于检测搜索机器人重复项的参考白皮书实现?

2 个答案:

答案 0 :(得分:0)

构建自己的网络抓取工具是lot of work。请考虑查看一些已有的开源蜘蛛,例如JSpiderOpenWebSpidermany others

答案 1 :(得分:0)

只需检查HTTP status code 即可解决第一种情况

对于第二和第三个案例维基百科解释得非常好: URL Normalization / Canonicalization