Question

我一直在用头撞墙撞墙。我正在尝试使用Python的BeautifulSoup解析RSS提要，并且偶尔会出现如下错误：

I don&#39;t know what I am talking about

我似乎无法找到任何python库来替换这些字符应该是什么，所以生成的字符串如下所示：

I don't know what I am talking about

我最接近的是

urllib.unquote(post_content).decode('utf-8')

但是仍然没有用'替换url编码的字符。有谁知道将这些urlencoded字符替换为它们代表的ascii字符的好方法？我还有其他错误（和）显示为(和)

Answer 1

那些奇怪的字符串称为html实体。您可以按照此网址的说明对其进行解码：Decode HTML entities in Python string?。它说要使用模块unescape

中的函数html.parse