Question

我的HTML文件中有（这是一个正确的卷曲引用），我想将其转换为文本（如果可能的话）。

我尝试使用HTMLParser和BeautifulSoup但没有成功。

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("&#39;")
u"'"
>>> h.unescape("&#146;")
u'\x92' # I was hoping for a right curly quote here.

我的目标非常简单：获取html输入并输出所有文本（没有任何HTML代码）。

Answer 1

＆＃34;右卷曲＆＃34;不是ascii角色。 u'\x92'是表示它的unicode字符的python表示，而不是某些＆＃34; html代码＆＃34;。

要在终端中正确显示，请使用print h.unescape("").encode('utf-8')（或任何终端的字符集）。