Question

我有一个文本文件名 weburl ，其中有许多网址我只想使用正则表达式获取基本网址的 weburls

 wikimapia.org/1649944/Bahawalpur-Railway-Station
 panoramio.com/photo/84118355
 wikimapia.org/1649944/Bahawalpur-Railway-Station
 nativepakistan.com/photos-of-bahawalpur
 defence.pk/threads/pictures-of-pakistan-railways.303027
 nativepakistan.com/photos-of-bahawalpur
 panoramio.com/photo/51311162
 https://hiveminer.com/User/Pakistan Rail Buff

需要这个

 wikimapia.org
 panoramio.com
 wikimapia.org
 nativepakistan.com
 defence.pk
 nativepakistan.com
 panoramio.com
 https://hiveminer.com

使用正则表达式我该怎么办？

Answer 1

一种解决方案可能是：

^(?:\w+://)?.*?(?::\d+)?(?=/|$)

它匹配行（^）的开头，后跟可选的协议规范，例如： https://（(?:\w+://)?）。然后它匹配任意数量的任何（.*?），直到可选的端口规范 - 如:80（(?::\d+)?）。最后，它会检查匹配后跟/ 或后面的行$（预测值为(?=/|$)）。

Check it out here at regex101

请注意，如果您不想匹配端口部分，可以将其移至正向前方。即^(?:\w+://)?.*?(?=(?::\d+)?(?:/|$))

如何从python中的文本文件中获取基本URL？

1 个答案: