如何预先确定模式应该以字母开头

时间:2014-11-26 08:03:27

标签: python regex

我试图找到文本中的所有链接。这是一个凌乱的文本,有些情况我想避免。我想只提取链接。

d= re.findall(r'.href=\\"http://([^"]*)', text)
dd= ['http://'+x for x in d]

如何在不重新添加http的情况下使用正则表达式执行此操作。

1 个答案:

答案 0 :(得分:2)

所做的更改

  • 重新排列paranthesis以包裹http://

  • 您无需转义原始字符串中的"

  • .放在http

  • 之前

该声明可以是

d= re.findall(r'href="(http://[^"]*)', text)

<强>测试

>>> str='href="http://www.google.com"'
>>> re.findall(r'href="(http://[^"]*)', str)
['http://www.google.com']