代码是拼写文本而不是unicode字符

时间:2011-07-18 15:41:29

标签: unicode beautifulsoup

我正在使用Beautiful Soup来提取一些文本。该程序在命令行上运行,当我运行它时,它会显示í é等代码。

如何更正此行为?

1 个答案:

答案 0 :(得分:2)

这些代码称为HTML / XML字符实体。

之前我没有使用过Beautiful Soup,但根据文档,它看起来有一个将字符实体转换为Unicode字符的选项:http://www.crummy.com/software/BeautifulSoup/documentation.html#Entity%20Conversion