我有一个文本文件名 weburl ,其中有许多网址我只想使用正则表达式获取基本网址 的 weburls
wikimapia.org/1649944/Bahawalpur-Railway-Station
panoramio.com/photo/84118355
wikimapia.org/1649944/Bahawalpur-Railway-Station
nativepakistan.com/photos-of-bahawalpur
defence.pk/threads/pictures-of-pakistan-railways.303027
nativepakistan.com/photos-of-bahawalpur
panoramio.com/photo/51311162
https://hiveminer.com/User/Pakistan Rail Buff
需要这个
wikimapia.org
panoramio.com
wikimapia.org
nativepakistan.com
defence.pk
nativepakistan.com
panoramio.com
https://hiveminer.com
使用正则表达式我该怎么办?
答案 0 :(得分:0)
一种解决方案可能是:
^(?:\w+://)?.*?(?::\d+)?(?=/|$)
它匹配行(^
)的开头,后跟可选的协议规范,例如: https://
((?:\w+://)?
)。然后它匹配任意数量的任何(.*?
),直到可选的端口规范 - 如:80
((?::\d+)?
)。最后,它会检查匹配后跟/
或后面的行$
(预测值为(?=/|$)
)。
请注意,如果您不想匹配端口部分,可以将其移至正向前方。即^(?:\w+://)?.*?(?=(?::\d+)?(?:/|$))