如何从单个页面或文件中禁用机器人

时间:2011-07-21 09:45:26

标签: robots.txt seo bots

如何从单个页面禁止机器人并允许抓取所有其他内容。

如此重要,不要错,所以我在这里问,无法在其他地方找到明确的答案。

这是对的吗?

    User-Agent:*
    Disallow: /dir/mypage.html
    Allow: /

1 个答案:

答案 0 :(得分:0)

Disallow行就是所需要的。它将阻止访问以“/dir/mypage.html”开头的任何内容。

Allow行是多余的。 robots.txt的默认值为Allow: /。通常,Allow不是必需的。它就在那里,你可以覆盖对不允许的东西的访问。例如,假设您要禁止访问“/ images”目录,“public”子目录中的图像除外。你会写:

Allow: /images/public
Disallow: /images

请注意,此处的顺序非常重要。爬虫应该使用“第一匹配”算法。如果你先写了'Disallow`,那么抓取工具就会认为对“/ images / public”的访问被阻止了。