我的HTML文件中有’
(这是一个正确的卷曲引用),我想将其转换为文本(如果可能的话)。
我尝试使用HTMLParser和BeautifulSoup但没有成功。
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.
我的目标非常简单:获取html输入并输出所有文本(没有任何HTML代码)。
答案 0 :(得分:2)
"右卷曲"不是ascii角色。 u'\x92'
是表示它的unicode字符的python表示,而不是某些" html代码"。
要在终端中正确显示,请使用print h.unescape("’").encode('utf-8')
(或任何终端的字符集)。