我试图找到文本中的所有链接。这是一个凌乱的文本,有些情况我想避免。我想只提取链接。
d= re.findall(r'.href=\\"http://([^"]*)', text)
dd= ['http://'+x for x in d]
如何在不重新添加http的情况下使用正则表达式执行此操作。
答案 0 :(得分:2)
所做的更改
重新排列paranthesis以包裹http://
您无需转义原始字符串中的"
将.
放在http
该声明可以是
d= re.findall(r'href="(http://[^"]*)', text)
<强>测试强>
>>> str='href="http://www.google.com"'
>>> re.findall(r'href="(http://[^"]*)', str)
['http://www.google.com']