Question

如何从单个页面禁止机器人并允许抓取所有其他内容。

如此重要，不要错，所以我在这里问，无法在其他地方找到明确的答案。

这是对的吗？

    User-Agent:*
    Disallow: /dir/mypage.html
    Allow: /

Answer 1

Disallow行就是所需要的。它将阻止访问以“/dir/mypage.html”开头的任何内容。

Allow行是多余的。 robots.txt的默认值为Allow: /。通常，Allow不是必需的。它就在那里，你可以覆盖对不允许的东西的访问。例如，假设您要禁止访问“/ images”目录，“public”子目录中的图像除外。你会写：

Allow: /images/public
Disallow: /images

请注意，此处的顺序非常重要。爬虫应该使用“第一匹配”算法。如果你先写了'Disallow`，那么抓取工具就会认为对“/ images / public”的访问被阻止了。