Question

如果这是一个非常简单的问题，请原谅我。自从我写了正则表达式以来已经有一段时间了。你最喜欢刷牙的帮助。我在python中使用正则表达式

我正在尝试解析一些网址。以下是我正在解析的URL的典型格式：

https://www.anysite.com/word/123456789/description-of-the-page
https://www.anysite.com/word/123456789/description-of-the-page/someword
https://www.anysite.com/word/123456789/description-of-the-page/thisword
https://www.anysite.com/word/123456789/description-of-the-page/anyword

我想写一个只匹配第一个URL但不匹配最后三个的表达式。也就是说，我想要一个正则表达式，只有在没有＆＃34; /＆＃34;遵循＆＃34; /＆＃34;跟随数字字符串＆＃34; 123456789＆＃34;。

忽略主URL，我尝试了一个负面的前瞻断言但没有成功：

/word\/.+?\/(?!\/).+/

这符合所有四个例子。

我不能具体到不以＃34; / someword＆＃34;结尾？＆＃34; / thisword＆＃34;或＆＃34; / anyword＆＃34;因为我没有这些单词的完整列表。

再次感谢您的关注和想法！

Answer 1

你可以这样做：

^https?:\/\/[^\d]*(\d+)\/[^\/]*$

演示：http://regex101.com/r/aC8aJ7

Answer 2

怎么样：

/word\/[^\/]+\/[^\/]+/

正则表达式匹配除＆＃34; /＆＃34;之外的所有内容。

2 个答案: