Robot.txt只允许one.php和一个文件夹

时间:2013-10-25 14:21:20

标签: html

我在公司工作,他们的网络服务器很乱。我无法删除的几个文件,因为它们需要稍后访问。我不希望它在我刚刚发现的关于robot.txt的搜索引擎中显示,非常迷人。

我只是想让它允许我的index.php和我的工作/文件夹中的所有内容

这是对的吗?

User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow: /

2 个答案:

答案 0 :(得分:3)

如果您只想允许index.phpwork文件夹(以及工作的子页面)。如果模式中存在匹配,爬虫将验证每行的行数。如果没有,它会转到下一个。在这种情况下,Disallow: /是最新的,并将阻止所有其他不匹配条件的抓取。

User-agent: *
Allow: /index.php
Allow: /work
Disallow: /

答案 1 :(得分:0)

  

排除除一个

以外的所有文件      

目前这有点尴尬,因为没有“允许”字段。该   简单的方法是将所有文件都禁止分开   目录,说“stuff”,并将一个文件保留在上面的级别   目录:

User-agent: *
Disallow: /~joe/stuff/
     

或者,您可以明确禁止所有不允许的页面:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

来自http://www.robotstxt.org/robotstxt.html