对于搜索机器人,我正在设计一个设计:
*比较URI和
*确定哪些URI实际上是同一页
处理重定向和别名:
案例1:重定向
案例2:别名,例如WWW
案例3:网址参数,例如sukshma.net/node#parameter
我有两种方法可以遵循,一种方法是明确检查重定向以捕获案例#1。另一种方法是“硬编码”别名,例如www,适用于案例#2。第二种方法(硬编码)别名很脆弱。 HTTP的URL规范未提及使用www作为别名(RFC 2616)
我还打算使用Canonical元标记(HTTP / HTML),但如果我理解正确 - 我不能依赖标记在所有情况下。
分享您自己的经验。您是否知道用于检测搜索机器人重复项的参考白皮书实现?
答案 0 :(得分:0)
构建自己的网络抓取工具是lot of work。请考虑查看一些已有的开源蜘蛛,例如JSpider,OpenWebSpider或many others。
答案 1 :(得分:0)
只需检查HTTP status code 即可解决第一种情况。
对于第二和第三个案例维基百科解释得非常好: URL Normalization / Canonicalization 。