加号在robots.txt中意味着什么?

时间:2017-04-07 09:01:32

标签: web-crawler robots.txt

对于网站,我想在User-agent: * Disallow: *telecommande++* 路径进行网络抓取。它是robots.txt:

/telecommandes-box-decodeur.html

我的问题是:

  • 在这种情况下加号是什么意思?
  • 是否适合抓取网址awk?关于robots.txt文件?

1 个答案:

答案 0 :(得分:1)

根据original robots.txt specification +Disallow值中没有特殊含义,也没有*

允许抓取/telecommandes-box-decodeur.html

例如,不允许抓取/*telecommande++*.html(字面意思)。

如果你想要礼貌,你可以采取"专有" robots.txt扩展程序,例如来自Google和其他搜索引擎。许多作者可能没有意识到这些不是官方规范的一部分,并期望它们甚至可以用于其他爬虫。

Google’s robots.txt documentation +没有特殊含义,但*有一个(意思是:任何字符序列)。

因此仍然允许抓取/telecommandes-box-decodeur.html

不允许抓取/foo/telecommande++bar.html(还有/*telecommande++*.html)。