Question

我试图找到文本中的所有链接。这是一个凌乱的文本，有些情况我想避免。我想只提取链接。

d= re.findall(r'.href=\\"http://([^"]*)', text)
dd= ['http://'+x for x in d]

如何在不重新添加http的情况下使用正则表达式执行此操作。

Answer 1

所做的更改

该声明可以是

d= re.findall(r'href="(http://[^"]*)', text)

<强>测试

>>> str='href="http://www.google.com"'
>>> re.findall(r'href="(http://[^"]*)', str)
['http://www.google.com']