允许某些网址并使用robots.txt拒绝其余网址

时间:2015-06-26 03:22:27

标签: robots.txt

我只需要允许某些特定目录并拒绝其余目录。我的理解是,你应先允许,然后不允许其余的。这是正确的我设置的?

Allow: /word-lists/words-that-start-with/letter/z/
Allow: /word-lists/words-that-end-with/letter/z/
Disallow: /word-lists/words-that-start-with/letter/
Disallow: /word-lists/words-that-end-with/letter/

1 个答案:

答案 0 :(得分:0)

您的代码段看起来不错,只是不要忘记在顶部添加User-Agent

允许/禁止关键字的顺序当前无关紧要,但是由客户端做出正确的选择。请参阅我们的Robots.txt文档中的Order of precedence for group-member records部分。

  对于允许和禁止指令,

[...],基于[path]条目长度的最具体规则将胜过不太具体(较短)的规则。

原始RFC确实声明客户应该按照找到的顺序评估规则,但是我不记得任何实际上会执行此操作的爬虫,而是他们正在安全地玩并遵循最严格的规则。

  

要评估是否允许访问URL,机器人必须尝试      匹配允许和禁止行中的路径与URL中的路径匹配      它们出现在记录中。找到的第一个匹配项是使用的。如果不      找到匹配,默认假设是允许URL。