从Python中的字符串中提取URL

时间:2017-03-30 23:59:16

标签: regex python-3.x url

我有一个像

这样的字符串
<dd>TF-AIDN, "Proposal for something...", Version 3.4, 18 November 2015 https://www.something.org/en/system/files/files/file-18nov15-en.pdf</dd>  

如何修改以下语句以从这样的字符串中提取URL?

urlfinder = re.compile(r"((https?):((//)|(\\\\))+[\w\d:#@%/;$()~_?\+-=\\\.&]*)", re.MULTILINE|re.UNICODE)

我无法弄清楚如何修改正则表达式,以便<作为URL的结束标记而不是空格。

1 个答案:

答案 0 :(得分:2)

您可以改用此正则表达式:

(http[^<]+)

<强> Working demo

这将匹配具有http的模式和除<

之外的所有内容