我有一个像这样的HTML文字:
<xml ... >
我希望将其转换为可读的内容:
<xml ...>
用Python做任何简单(快速)的方法吗?
答案 0 :(得分:21)
HTMLParser
的官方文档:Python 2.7
>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('© €')
u'\xa9 \u20ac'
>>> print _
© €
HTMLParser
的官方文档:Python 3
>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('© €')
© €
答案 1 :(得分:1)
有一个函数here可以做到这一点,正如弗雷德所指出的那样。复制到这里以使事情变得更容易。
感谢Fred Larson链接到关于SO的另一个问题。 感谢dF发布链接。
答案 2 :(得分:0)
现代Python 3方法:
>>> import html
>>> html.unescape('© €')
© €