Question

如何使用1.html, 2.html, ..., [0-9]+.html禁止robots.txt（就regexp而言）的网址？

Answer 1

原始robots.txt规范不支持正则表达式/通配符。但是，您可以阻止以下网址：

使用：

User-agent: *
Disallow: /0
Disallow: /1
Disallow: /2
Disallow: /3
Disallow: /4
Disallow: /5
Disallow: /6
Disallow: /7
Disallow: /8
Disallow: /9

如果您只想阻止以单个数字开头，后跟.html的网址，只需附加.html，例如：

User-agent: *
Disallow: /0.html
Disallow: /1.html
…

但是，此不会阻止，例如example.com/12.html