Question

我有一个解析文本包含不同符号的HTML版本，如引号或短划线。

这是一个字符串的样子：

Introduction &#8211 First page&#8218s content

我想要实现这个目标：

Introduction - First page's content

是否有任何库或通用解决方案可以更改任何字符串中的HTML实体？或者我需要编写一个将html替换为正确字符串的函数？

我已经检查了these answers，但我宁愿需要一些适用于包含html实体的简单Python字符串的东西。

Answer 1

html模块不需要字符串中的任何特殊内容。它只是工作：

>>> import html
>>> html.unescape('Introduction &#8211 First page&#8218s content')
'Introduction – First page‚s content'

Answer 2

尝试

print unicode(x)

或

print x.encode('ascii')