我编写了一个脚本(see here)来获取模板目录中的所有网址,但是某些href包含两个要使用的网址,具体取决于应用运行的语言。
因此,我的脚本目前为我提供了href='here'
中的任何内容列表,但现在我还希望从href中收集看起来像这样的URL;
href="{{ 'http://www.link.com/blah/page.htm'|cy:'http://www.link.com/welsh/blah/page.htm' }}"
我需要返回那些正则表达式? (和很多人一样,我对Regex很害怕!)
答案 0 :(得分:2)
类似的东西:
href="{{ 'http://www.link.com/blah/page.htm'|cy:'http://www.link.com/welsh/blah/page.htm' }}"
import re
print re.findall("'(http://(?:.*?))'", href)
# ['http://www.link.com/blah/page.htm', 'http://www.link.com/welsh/blah/page.htm']
以http://开头的任何内容都在撇号内。