正斜杠后面没有任何字符

时间:2014-03-26 18:48:19

标签: regex python-2.7

我遇到了以下挑战。

我需要一个正则表达式来查找包含以.net或.net /结尾但未跟随任何其他字符的URL的所有行。

到目前为止我的正则表达式:

r'://[a-zA-z0-9.]+\.net(/*)'

但是如何忽略像www.xxxxxx.net/search或www.xxxxxx.net/q =

这样的网址

网址并不总是在行尾!

示例行:

"xxxxxxxxxxx, http://www.blog.net; 2 subscribers)"
"yyyyyyyyyyy, http://www.blog.net/; 2 subscribers)"
"zzzzzzzzzzz, http://www.blog.net/search; 2 subscribers)"
"rrrrrrrrrrr, http://www.blog.net/search"
"rrrrrrrrrrr, http://www.blog.net/q=;

2 个答案:

答案 0 :(得分:1)

您可以使用前瞻:

r'://[a-zA-z0-9.]+\.net(/?)(?!\S|$)'

只要可选的/后面没有非空格字符,就会匹配。

答案 1 :(得分:1)

以下内容可能适用于您的示例输入:

r'https?://[a-zA-z0-9.]+\.net/?'