我需要将像'&#8217'这样的html entites转换为Unicode字符串。我已经阅读过html.unescape函数可以做到,所以我试了一下。
print(html.unescape('’'))
如果在IDLE(Python Shell)中键入此行,则该行正常工作 - 引用就像它应该的那样出现。但是当使用该行代码创建.py
文件并尝试编译它时,会发生错误 - UnicodeEncodeError: 'charmap' codec can't encode character '\u2019' in position 0: character maps to <undifined>
。
那么为什么它在concole失败并在IDLE工作?我该怎么办?我需要将html实体转换为我正在编写的解析器的一部分。