我尝试了两种不同的网络抓取工具(Sistrix和http://ssitemap.com)。两个抓取工具都会报告有关/
和/?katID=12
等网址的重复内容的错误。
结果是,如果抓取工具调用了网址/projekte/index.php?katID=12
,则会找到<a href="/">Home</a>
并将其添加为/?katID=12
的链接。看起来网址?katID=12
中的参数会添加到页面中没有参数的每个链接。
如果我使用浏览器或wget,我会看到我想要的/
的简单html链接。
我做错了什么吗?服务器配置?
这是抓取工具中的错误还是功能?
答案 0 :(得分:0)
我在每个页面添加了<link rel="canonical" href="...">
,以帮助抓取工具识别相同的页面。
另见http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394