我想知道rails app robots.txt文件的标准做法是什么。即,通常防止哪些文件夹来自机器人跟踪。
我当前的robots.txt文件是:
# User-agent: *
# Disallow: /
Disallow: /public/uploads/
Sitemap: www.mysite.co.za/sitemap.xml
我的问题是,大多数人禁止/公开/上传被跟踪?
我还有许多模型/页面,其中只有Admin用户可以访问和执行CRUD操作。这受到设计的保护。我想知道是否有必要在robots.txt文件中禁止这些,以及蜘蛛是否能够索引这些页面(因为它们仅受管理员使用保护)。
例如我有一个类别模型,只有管理员才能进行CRUD。我应该补充一下:
Disallow: /categories/
(或者是*)
Disallow: /categories/*
这些都是我对rails中robots.txt用法的疑问。这有意义吗?
感谢,
马特
答案 0 :(得分:1)
您的robots.txt不正确,因为您没有User-agent
行(每个块至少需要一行)。 (#
开始发表评论,因此前两行是评论。)
只有您可以决定是否要禁止抓取路径以/public/uploads/
开头的网址。是否有资源可能需要机器人访问/抓取?如果是,请不要阻止它。
追加*
只会阻止:字面上包含/public/uploads/*
(some bots的网址路径可能会赋予*
其他含义,但这不是原始的一部分robots.txt规范)。因此,您不应附加*
。
如果您对管理页面的保护有效,那么机器人当然无法访问实际的管理页面。他们可能会看到一个错误页面(取决于您的实现)。如果您发送了正确的状态代码(例如,403或404),则不必在robots.txt中阻止它们。但它也不会伤害(并且可以在你真正弄乱的情况下保护你)。
此外,content for Sitemap
should be the full URL(您省略了协议)。