我在Python中有一个格式错误的字符串:
Muhammad Ali's fight with Larry Holmes
其中'
是撇号。
首先是什么表示:'
?其次,如何在python中解析字符串,以便用'
替换'
答案 0 :(得分:5)
Python标准库的HTMLParser
能够解码字符串中的HTML实体。
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'
>>> print s
© 2010
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'
此处介绍了一系列解决方案:http://fredericiana.com/2010/10/08/decoding-html-entities-to-text-in-python/
答案 1 :(得分:1)
&#CHAR-CODE;
是html中特殊字符的sytax(可能在其他地方,但我不确定)。可能有更完整的方法来执行此操作,但您可以使用以下命令替换它:
mystring = "Muhammad Ali's fight with Larry Holmes"
print mystring.replace("'", "'")
收率:
穆罕默德·阿里与拉里·霍姆斯的斗争