在我的Robots.txt中,我必须允许特定子文件夹中的所有文件。但它不应该允许抓取该子文件夹。是否可以使用Robots.txt。我找到了文件夹和子文件夹,如
Disallow: /directory/
Allow: /directory/subdirectory/
子文件夹和文件的方式是否相同?如果是,我必须允许该子目录中的所有文件。如何实现?
答案 0 :(得分:1)
指令:
Disallow: /*test/$
告诉机器人它无法访问目录test/
。 $
表示“字符串结束”。因此"http://example.com/test/"
会被屏蔽,但"http://example.com/test/foo.php"
会被允许。
您可能还应该添加:
Disallow: /*test$
有关详细信息,请参阅Google's robots.txt documentation中标记为“基于路径值的网址匹配”部分。
答案 1 :(得分:0)
在Apache中,您可以像这样编写文件夹权限:
<FilesMatch robots.txt>
Order deny, allow
Allow from localhost
Deny from all
</Files>
如果你根本不需要Apache来阅读robots.txt,你可以完全拒绝。或者,您可以使用chmod
并更改设置,以便Apache无法读取文件。