&符号混乱

时间:2012-10-18 15:56:22

标签: python unicode

可能是一个愚蠢的问题,但出于某种原因&不被视为&amp ;.我从API获取文字,&打印为&而不是&amp ;.我通过UTF8编码,但它没有抓住它

2 个答案:

答案 0 :(得分:4)

&是&符号的HTML转义序列。它与字符编码无关。如果您打开在浏览器中提取的页面(如果可能),您将在源代码中看到它。

答案 1 :(得分:1)

您可以尝试使用BeautifulSoup翻译HTML Entity names.

from BeautifulSoup import BeautifulStoneSoup
BeautifulStoneSoup("&",convertEntities=BeautifulStoneSoup.ALL_ENTITIES)