Crawler将参数从url添加到链接

时间:2013-04-02 15:57:49

标签: php http parameters apache2 web-crawler

我尝试了两种不同的网络抓取工具(Sistrix和http://ssitemap.com)。两个抓取工具都会报告有关//?katID=12等网址的重复内容的错误。

结果是,如果抓取工具调用了网址/projekte/index.php?katID=12,则会找到<a href="/">Home</a>并将其添加为/?katID=12的链接。看起来网址?katID=12中的参数会添加到页面中没有参数的每个链接。

如果我使用浏览器或wget,我会看到我想要的/的简单html链接。

我做错了什么吗?服务器配置?

这是抓取工具中的错误还是功能?

1 个答案:

答案 0 :(得分:0)

我在每个页面添加了<link rel="canonical" href="...">,以帮助抓取工具识别相同的页面。

另见http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394