我有一个解析文本包含不同符号的HTML版本,如引号或短划线。
这是一个字符串的样子:
Introduction – First page‚s content
我想要实现这个目标:
Introduction - First page's content
是否有任何库或通用解决方案可以更改任何字符串中的HTML实体?或者我需要编写一个将html替换为正确字符串的函数?
我已经检查了these answers,但我宁愿需要一些适用于包含html实体的简单Python字符串的东西。
答案 0 :(得分:1)
html
模块不需要字符串中的任何特殊内容。它只是工作:
>>> import html
>>> html.unescape('Introduction – First page‚s content')
'Introduction – First page‚s content'
答案 1 :(得分:0)
尝试
print unicode(x)
或
print x.encode('ascii')