如何从python中的文本文件中获取基本URL?

时间:2017-04-12 02:39:39

标签: python regex python-2.7 url text-files

我有一个文本文件名 weburl ,其中有许多网址我只想使用正则表达式获取基本网址  的 weburls

 wikimapia.org/1649944/Bahawalpur-Railway-Station
 panoramio.com/photo/84118355
 wikimapia.org/1649944/Bahawalpur-Railway-Station
 nativepakistan.com/photos-of-bahawalpur
 defence.pk/threads/pictures-of-pakistan-railways.303027
 nativepakistan.com/photos-of-bahawalpur
 panoramio.com/photo/51311162
 https://hiveminer.com/User/Pakistan Rail Buff

需要这个

 wikimapia.org
 panoramio.com
 wikimapia.org
 nativepakistan.com
 defence.pk
 nativepakistan.com
 panoramio.com
 https://hiveminer.com

使用正则表达式我该怎么办?

1 个答案:

答案 0 :(得分:0)

一种解决方案可能是:

^(?:\w+://)?.*?(?::\d+)?(?=/|$)

它匹配行(^)的开头,后跟可选的协议规范,例如: https://(?:\w+://)?)。然后它匹配任意数量的任何.*?),直到可选的端口规范 - 如:80(?::\d+)?)。最后,它会检查匹配后跟/ 后面的行$(预测值为(?=/|$))。

Check it out here at regex101

请注意,如果您不想匹配端口部分,可以将其移至正向前方。即^(?:\w+://)?.*?(?=(?::\d+)?(?:/|$))