robots.txt中令人困惑的通配符:* + *,*%2B *,*%2b *

时间:2018-10-17 17:03:10

标签: wildcard robots.txt

这3行在robots.txt中的含义是什么(显然,我的意思是*+**%2B**%2b*)?

Disallow: /collections/*+*
Disallow: /collections/*%2B*
Disallow: /collections/*%2b*

1 个答案:

答案 0 :(得分:1)

原始"standard"仅定义

  

禁止
  该字段的值指定了部分网址,该网址不是   被访问。这可以是完整路径,也可以是部分路径。任何网址   以该值开头的将不会被检索。例如,   Disallow: /help禁止同时使用/help.html/help/index.html,   而Disallow: /help/将禁止/help/index.html但允许   /help.html

这意味着,所有路径完全匹配(没有任何字符在模式匹配中具有特殊含义)。

但这也说明

  

它不是由标准组织支持或由任何商业组织拥有的正式标准。它没有被任何人强制执行...


最新和更现代的Google documentation解释

  

Google,Bing,Yahoo和Ask支持路径值的有限形式的“通配符”。这些是:

     
      
  • *指定0个或多个任何有效字符的实例。

  •   
  • $指定URL的结尾。

  •   

如此

Disallow: /collections/*+*
Disallow: /collections/*%2B*
Disallow: /collections/*%2b*

禁止以/collections/开头的所有路径,后跟任何包含

  • +
  • %2B
  • %2b

因为这些字符在路径模式中没有特殊含义。