我一直在用头撞墙撞墙。我正在尝试使用Python的BeautifulSoup解析RSS提要,并且偶尔会出现如下错误:
I don't know what I am talking about
我似乎无法找到任何python库来替换这些字符应该是什么,所以生成的字符串如下所示:
I don't know what I am talking about
我最接近的是
urllib.unquote(post_content).decode('utf-8')
但是仍然没有用'替换url编码的字符。有谁知道将这些urlencoded字符替换为它们代表的ascii字符的好方法?我还有其他错误(和)显示为(
和)
答案 0 :(得分:0)
那些奇怪的字符串称为html实体。您可以按照此网址的说明对其进行解码:Decode HTML entities in Python string?。它说要使用模块unescape
html.parse