我只需要允许某些特定目录并拒绝其余目录。我的理解是,你应先允许,然后不允许其余的。这是正确的我设置的?
Allow: /word-lists/words-that-start-with/letter/z/
Allow: /word-lists/words-that-end-with/letter/z/
Disallow: /word-lists/words-that-start-with/letter/
Disallow: /word-lists/words-that-end-with/letter/
答案 0 :(得分:0)
您的代码段看起来不错,只是不要忘记在顶部添加User-Agent
。
允许/禁止关键字的顺序当前无关紧要,但是由客户端做出正确的选择。请参阅我们的Robots.txt文档中的Order of precedence for group-member records部分。
对于允许和禁止指令,[...],基于[path]条目长度的最具体规则将胜过不太具体(较短)的规则。
原始RFC确实声明客户应该按照找到的顺序评估规则,但是我不记得任何实际上会执行此操作的爬虫,而是他们正在安全地玩并遵循最严格的规则。
要评估是否允许访问URL,机器人必须尝试 匹配允许和禁止行中的路径与URL中的路径匹配 它们出现在记录中。找到的第一个匹配项是使用的。如果不 找到匹配,默认假设是允许URL。