在python中解析格式错误的字符串

时间:2011-11-13 20:11:48

标签: python

  

可能重复:
  Decode HTML entities in Python string?

我在Python中有一个格式错误的字符串:

Muhammad Ali's fight with Larry Holmes

其中'是撇号。

首先是什么表示:'?其次,如何在python中解析字符串,以便用'替换'

2 个答案:

答案 0 :(得分:5)

Python标准库的HTMLParser能够解码字符串中的HTML实体。

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'
>>> print s
© 2010
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'

此处介绍了一系列解决方案:http://fredericiana.com/2010/10/08/decoding-html-entities-to-text-in-python/

答案 1 :(得分:1)

&#CHAR-CODE;是html中特殊字符的sytax(可能在其他地方,但我不确定)。可能有更完整的方法来执行此操作,但您可以使用以下命令替换它:

mystring = "Muhammad Ali's fight with Larry Holmes"
print mystring.replace("'", "'")

收率:

  穆罕默德·阿里与拉里·霍姆斯的斗争