请使用Python Regex帮助从HTML标记中提取文本

时间:2010-11-02 21:22:25

标签: python regex parsing

我有以下HTML文字:

Country/<i>List it here</i><br><font color="#ff00ff">Dubai</font><br><br>

如何从上述HTML中提取“迪拜”?我有几百个这样的行,有点急,所以不研究BeautifulSoup或XML解析器的实现。

非常感谢!

1 个答案:

答案 0 :(得分:2)

由于你只想要快速和肮脏的东西,你可以使用:

re.match(r'.*>([^<>]*)</font>.*', s).group(1)

这只是在关闭字体标记之前抓取所有非角度包围的东西。同样,不适合“真正的”解析。