我的网站有http://domain.com/blog作为根目录,而http://domain.com的所有流量都会重定向到http://domain.com/blog。
当我访问Google并执行site:domain.com时,这会导致问题,我看到根目录中标题为页面上的第一篇文章。如何阻止根被抓取,从而不会出现在搜索中?
在网站管理员工具中,我将该网站添加为http://domain.com,但我只在/ blog目录和其他静态网页上获取谷歌。这是对的吗?
我通常知道如何做到这一点,但这次网站有一个子目录作为预期的根目录,所以它有点不同。
有人可以验证这是否符合我的要求吗?
User-agent: *
Allow: /$
Disallow: /
答案 0 :(得分:1)
Robots.txt不会阻止抓取工具抓取某些网页。 Robots.txt只是一个文本文件,其中包含一组指导原则,您要求抓取工具跟踪它并不会随时阻止抓取工具。如果您想阻止某个网页被抓取/访问 - 那么您必须阻止对该页面的所有访问,这包括不是抓取工具的其他用户。但是既然你已经让它重定向我就没有看到任何问题。 此外,$不是统一标准,也不是允许(技术上)。尽量让它专注于特定的机器人。 Google和Bing认可了Allow关键字,但许多其他机器人却没有。
您当前的robots.txt也说明了这一点:不要抓取任何网页,而是抓取根
我建议您将此作为robots.txt
User-agent: *
Disallow: /
User-agent: googlebot
Disallow: /$
这告诉所有其他机器人,但Google不会抓取您的网页。它告诉谷歌抓取工具不要在root用户中抓取,但其他一切都是允许的。