text=u’<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>‘
我是一个蟒蛇新手。 我想得到\ ue6ec,\ ue6f6,\ ue6ec,如何获取这些字符串使用re模块。 非常感谢你!
答案 0 :(得分:2)
Regexp不是使用HTML的好工具。使用Beautiful Soup。
答案 1 :(得分:2)
>>> from BeautifulSoup import BeautifulSoup
>>> text=u'<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>'
>>> t = BeautifulSoup(text)
>>> t.findAll(text=True)
[u'\ue689', u'\ue6ec', u'\ue6f6']
答案 2 :(得分:1)
Don't use regular expressions to parse HTML。使用BeautifulSoup。对于BeautifulSoup,我是Documentation。
答案 3 :(得分:0)
如果您知道该页面将始终具有该格式,请使用BeautifulSoup解析器在HTML中查找所需内容。
但是,有时BeautifulSoup可能因格式错误的HTML而中断。我建议你使用lxml这是libxml2的python绑定。它将解析并通常纠正格式错误的HTML。