如何从单个页面禁止机器人并允许抓取所有其他内容。
如此重要,不要错,所以我在这里问,无法在其他地方找到明确的答案。
这是对的吗?
User-Agent:*
Disallow: /dir/mypage.html
Allow: /
答案 0 :(得分:0)
Disallow
行就是所需要的。它将阻止访问以“/dir/mypage.html”开头的任何内容。
Allow
行是多余的。 robots.txt的默认值为Allow: /
。通常,Allow
不是必需的。它就在那里,你可以覆盖对不允许的东西的访问。例如,假设您要禁止访问“/ images”目录,“public”子目录中的图像除外。你会写:
Allow: /images/public
Disallow: /images
请注意,此处的顺序非常重要。爬虫应该使用“第一匹配”算法。如果你先写了'Disallow`,那么抓取工具就会认为对“/ images / public”的访问被阻止了。