如何让谷歌代理服务器忽略我网站的部分内容?

时间:2015-02-27 02:08:52

标签: .htaccess proxy drupal-7 robots.txt access-denied

我正在使用drupal,在我的看门狗日志条目中,我有以下IP地址试图访问我们不应该访问的网站部分。他们被记录为“访问被拒绝”。通常,我会阻止这些IP地址,但在查找之后,我发现它们是谷歌代理。主机名看起来像这样google-proxy-66-249-83-213.google.com。我的robots.txt文件中不允许使用我网站的部分内容。当我转到谷歌网站管理员工具并测试robots.txt文件时,它确认它无法访问这些网址。

侵犯知识产权:

66.249.83.213
66.249.88.227
66.249.88.223
66.249.88.225
66.249.83.207

我该怎么做才能阻止他们试图访问这些部分而不完全限制它们?我可以在我的htaccess文件中添加什么东西吗?我能做什么?

2 个答案:

答案 0 :(得分:0)

您可以使用robots.txt文件来阻止抓取工具访问您网站的特定区域。

以下是如何配置它的示例:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例如,您可以找到更多详细信息here

希望这有帮助!

答案 1 :(得分:0)

我有完全相同的问题,每天都有不同的谷歌代理域访问我的网络服务。不知何故,链接被编入索引。

坏消息是,我发现根本没有尝试访问robots.txt的日志 - 因此,添加任何内容都无济于事。

我发现摆脱这种情况的唯一方法是在防火墙中阻止它。我添加了一个入站规则阻止66.249.64.0/19,它涵盖了所有谷歌代理域的IP范围(净范围66.249.64.0 - 66.249.95.255)