我在公司工作,他们的网络服务器很乱。我无法删除的几个文件,因为它们需要稍后访问。我不希望它在我刚刚发现的关于robot.txt的搜索引擎中显示,非常迷人。
我只是想让它允许我的index.php和我的工作/文件夹中的所有内容
这是对的吗?
User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow: /
答案 0 :(得分:3)
如果您只想允许index.php
和work
文件夹(以及工作的子页面)。如果模式中存在匹配,爬虫将验证每行的行数。如果没有,它会转到下一个。在这种情况下,Disallow: /
是最新的,并将阻止所有其他不匹配条件的抓取。
User-agent: *
Allow: /index.php
Allow: /work
Disallow: /
答案 1 :(得分:0)
排除除一个
以外的所有文件目前这有点尴尬,因为没有“允许”字段。该 简单的方法是将所有文件都禁止分开 目录,说“stuff”,并将一个文件保留在上面的级别 目录:
User-agent: * Disallow: /~joe/stuff/
或者,您可以明确禁止所有不允许的页面:
User-agent: * Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html