用于忽略主机名的正则表达式

时间:2012-04-19 17:13:32

标签: regex

我试图忽略网址的主机名部分,只保留路径。

例如:

http://bar.foooo.com/path1/path2/path3

目前我有以下正则表达式:

\\bhttp\\b)*(\\bhttps\\b)*(\\b[\\w']{1,2}\\b)*(\\bwww\\b)*(\\bco\\b)*(\\buk\\b)*(\\bcom\\b)*(\\borg\\b)*[^\\p{L}\\p{N}]+|[\\w\\d']{20,}|\\b\\w*\\d\\w*", " "));

将该链接转为:

bar foooo path1 path2 path3

但我想排除bar和foooo,换句话说忽略[http://bar.foooo.com/]

2 个答案:

答案 0 :(得分:0)

您可以使用以下表达式:

^https?:\/\/[^\/]\/(.*)$

这将忽略起始http://....../(或https://....../)并且只会返回路径

答案 1 :(得分:0)

^https?:\/\/[^\/]+\/(.+)$

应该工作。