多语言网站和搜索引擎

时间:2011-07-18 22:54:53

标签: php web-crawler multilingual

我正在为一家拥有来自世界各地的客户的公司开发一个网站,该网站将以两种语言提供:意大利语(本地)和英语。 一旦访问者访问该网站,我检查IP,如果它来自意大利我用意大利语显示该网站,如果它不是我用英语显示。当然,他们可以选择手动覆盖语言。 当搜索引擎机器人检查网站索引页面时究竟会发生什么?

  • 通常抓取工具总是拥有基于美国的IP
  • 即使抓取工具“点击”“更改语言”链接以显示意大利语页面,因为他们无法接受Cookie(以及会话等)我无法保留语言设置或跟踪已选择的内容< / LI>

所以问题是,你如何以搜索引擎扫描这两种语言并将其编入索引的方式处理这种情况?

3 个答案:

答案 0 :(得分:2)

Google实际上在网站管理员指南中有关于此主题的文章。您可能需要查看一下,因为它们专门解决了您提出的问题:http://www.google.com/support/webmasters/bin/answer.py?answer=182192

答案 1 :(得分:0)

我会使用子域名:

eng.mysite.com/whatever
it.mysite.com/whatever

然后有一个站点地图指向每个语言子域的主页,它们都应该被抓取。

答案 2 :(得分:0)

您可以使用以下方法:

  • 扫描Accept-Language标头($_SERVER['HTTP_ACCEPT_LANGUAGE'])以查找用户代理更喜欢的语言。这通常比检查其国家/地区的IP地址更可靠。
  • 检查User-Agent标头($_SERVER['HTTP_USER_AGENT'])以查看请求是否来自搜索引擎,例如“Googlebot”和“Yahoo! Slurp”。