对于网站,我想在User-agent: *
Disallow: *telecommande++*
路径进行网络抓取。它是robots.txt:
/telecommandes-box-decodeur.html
我的问题是:
awk
?关于robots.txt文件?答案 0 :(得分:1)
根据original robots.txt specification ,+
在Disallow
值中没有特殊含义,也没有*
。
允许抓取/telecommandes-box-decodeur.html
。
例如,不允许抓取/*telecommande++*.html
(字面意思)。
如果你想要礼貌,你可以采取"专有" robots.txt扩展程序,例如来自Google和其他搜索引擎。许多作者可能没有意识到这些不是官方规范的一部分,并期望它们甚至可以用于其他爬虫。
每Google’s robots.txt documentation ,+
没有特殊含义,但*
有一个(意思是:任何字符序列)。
因此仍然允许抓取/telecommandes-box-decodeur.html
。
不允许抓取/foo/telecommande++bar.html
(还有/*telecommande++*.html
)。