我正在使用Beautiful Soup来提取一些文本。该程序在命令行上运行,当我运行它时,它会显示í é
等代码。
如何更正此行为?
答案 0 :(得分:2)
这些代码称为HTML / XML字符实体。
之前我没有使用过Beautiful Soup,但根据文档,它看起来有一个将字符实体转换为Unicode字符的选项:http://www.crummy.com/software/BeautifulSoup/documentation.html#Entity%20Conversion