Python:将String中的URLEncoded字符替换为它们所代表的字符

时间:2015-03-16 01:19:06

标签: python url rss

我一直在用头撞墙撞墙。我正在尝试使用Python的BeautifulSoup解析RSS提要,并且偶尔会出现如下错误:

I don't know what I am talking about

我似乎无法找到任何python库来替换这些字符应该是什么,所以生成的字符串如下所示:

I don't know what I am talking about

我最接近的是

urllib.unquote(post_content).decode('utf-8')

但是仍然没有用'替换url编码的字符。有谁知道将这些urlencoded字符替换为它们代表的ascii字符的好方法?我还有其他错误(和)显示为()

1 个答案:

答案 0 :(得分:0)

那些奇怪的字符串称为html实体。您可以按照此网址的说明对其进行解码:Decode HTML entities in Python string?。它说要使用模块unescape

中的函数html.parse