Question

可能重复：
Decode HTML entities in Python string?

我在Python中有一个格式错误的字符串：

Muhammad Ali&#39;s fight with Larry Holmes

其中'是撇号。

首先是什么表示：'？其次，如何在python中解析字符串，以便用'替换'

Answer 1

Python标准库的HTMLParser能够解码字符串中的HTML实体。

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> s = h.unescape('&copy; 2010')
>>> s
u'\xa9 2010'
>>> print s
© 2010
>>> s = h.unescape('&#169; 2010')
>>> s
u'\xa9 2010'

此处介绍了一系列解决方案：http://fredericiana.com/2010/10/08/decoding-html-entities-to-text-in-python/

Answer 2

&#CHAR-CODE;是html中特殊字符的sytax（可能在其他地方，但我不确定）。可能有更完整的方法来执行此操作，但您可以使用以下命令替换它：

mystring = "Muhammad Ali&#39;s fight with Larry Holmes"
print mystring.replace("&#39;", "'")

收率：

穆罕默德·阿里与拉里·霍姆斯的斗争

在python中解析格式错误的字符串

2 个答案: