Question

我与一家电子邮件公司合作，该公司有一个功能，他们为您的网站提供蜘蛛网，以便提供自定义内容。我有能力根据我提供的正则表达式模式让蜘蛛忽略网址。

对于此系统，模式以“/".

开头和结尾

我原本以为下面的模式会起作用，因为它没有斜线但没有运气。

有什么想法吗？

/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/

Answer 1

这取决于正则表达式引擎，但您可以使用$（如果URL预先标记）或者匹配空格和分隔符

Answer 2

你的正则表达式匹配URL的部分，所以你需要告诉它不要让斜杠跟着它：

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9](?!\/)/

如果您还想避免像http://www.website.com/2011/100中那样的其他部分匹配，那么额外的word boundary可能有所帮助：

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9]\b(?!\/)/