用Python 2.6中的相应utf-8字符替换html实体

时间:2009-04-08 14:32:42

标签: python html-entities python-2.6

我有一个像这样的HTML文字:

<xml ... >

我希望将其转换为可读的内容:

<xml ...>

用Python做任何简单(快速)的方法吗?

3 个答案:

答案 0 :(得分:21)

Python 2.7

HTMLParser的官方文档:Python 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €

Python 3

HTMLParser的官方文档:Python 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €

答案 1 :(得分:1)

有一个函数here可以做到这一点,正如弗雷德所指出的那样。复制到这里以使事情变得更容易。

感谢Fred Larson链接到关于SO的另一个问题。 感谢dF发布链接。

答案 2 :(得分:0)

现代Python 3方法:

>>> import html
>>> html.unescape('&copy; &euro;')
© €

https://docs.python.org/3/library/html.html