如何在解析的文本中处理HTML实体 - Python

时间:2017-07-09 22:06:52

标签: python html

我有一个解析文本包含不同符号的HTML版本,如引号或短划线。

这是一个字符串的样子:

Introduction &#8211 First page&#8218s content

我想要实现这个目标:

Introduction - First page's content

是否有任何库或通用解决方案可以更改任何字符串中的HTML实体?或者我需要编写一个将html替换为正确字符串的函数?

我已经检查了these answers,但我宁愿需要一些适用于包含html实体的简单Python字符串的东西。

2 个答案:

答案 0 :(得分:1)

html模块不需要字符串中的任何特殊内容。它只是工作:

>>> import html
>>> html.unescape('Introduction &#8211 First page&#8218s content')
'Introduction – First page‚s content'

答案 1 :(得分:0)

尝试

print unicode(x)

print x.encode('ascii')