Question

我只需要允许某些特定目录并拒绝其余目录。我的理解是，你应先允许，然后不允许其余的。这是正确的我设置的？

Allow: /word-lists/words-that-start-with/letter/z/
Allow: /word-lists/words-that-end-with/letter/z/
Disallow: /word-lists/words-that-start-with/letter/
Disallow: /word-lists/words-that-end-with/letter/

Answer 1

您的代码段看起来不错，只是不要忘记在顶部添加User-Agent。

允许/禁止关键字的顺序当前无关紧要，但是由客户端做出正确的选择。请参阅我们的Robots.txt文档中的Order of precedence for group-member records部分。

对于允许和禁止指令，
[...]，基于[path]条目长度的最具体规则将胜过不太具体（较短）的规则。

原始RFC确实声明客户应该按照找到的顺序评估规则，但是我不记得任何实际上会执行此操作的爬虫，而是他们正在安全地玩并遵循最严格的规则。

要评估是否允许访问URL，机器人必须尝试匹配允许和禁止行中的路径与URL中的路径匹配它们出现在记录中。找到的第一个匹配项是使用的。如果不找到匹配，默认假设是允许URL。

允许某些网址并使用robots.txt拒绝其余网址

1 个答案: