如何阻止GoogleBot查找获取网址?

时间:2011-08-12 14:22:27

标签: zope googlebot

我使用标准的简单重写规则在zope 2(多个虚拟主机)前面有apache。

我在托管和googlebot的一些旧网站上遇到了大问题。

说我有:

  • site.example.com/documents /
  • site.example.com/images/i.jpg
  • site.example.com/xml /
  • site.example.com/flash_banner.swf

如何阻止以下情况发生?

  • site.example.com/documents/images/xml/i.jpg
  • site.example.com/images/xml/i.jpg
  • site.example.com/images/i.jpg/xml/documents/flash_banner.swf

所有人都使用URI末尾的最后一个文件夹中的正确对象进行回复,旧网站写得不好,有些情况下谷歌进出数百个不存在的文件夹结构排列但总是找到大型Flash文件。因此,Googlebot不是一次点击Flash文件,而是将其拖离网站数千次。我正在移动旧网站Django。但是我需要在Zope停下来。过去曾尝试过ipchains和mod_security,但这次不是一个选择。

1 个答案:

答案 0 :(得分:2)

找出哪个页面为Google提供了相同对象的所有变体路径。然后修复该页面,使其仅使用可遍历对象的absoute_url(),absoute_url_path()或virtual_url_path()方法提供规范路径。

您还可以使用sitemaps.xmlrobots.txt告诉Google不要使用错误的路径,但这肯定是一种解决方法,而不是像上面那样修复。