可能是一个愚蠢的问题,但出于某种原因&不被视为&amp ;.我从API获取文字,&
打印为&
而不是&amp ;.我通过UTF8编码,但它没有抓住它
答案 0 :(得分:4)
&
是&符号的HTML转义序列。它与字符编码无关。如果您打开在浏览器中提取的页面(如果可能),您将在源代码中看到它。
答案 1 :(得分:1)
您可以尝试使用BeautifulSoup翻译HTML Entity names.
from BeautifulSoup import BeautifulStoneSoup
BeautifulStoneSoup("&",convertEntities=BeautifulStoneSoup.ALL_ENTITIES)