我已经解析了一些HTML文本。但像撇号这样的一些标点符号被’
取代。如何将它们还原为`
P.S:我正在使用Python / Feedparser
由于
答案 0 :(得分:1)
PSF Wiki有一些方法可以做到这一点。这是一种方式:
import htmllib
def unescape(s):
p = htmllib.HTMLParser(None)
p.save_bgn()
p.feed(s)
return p.save_end()
答案 1 :(得分:0)
这对我有帮助
import HTMLParser
hparser=HTMLParser.HTMLParser()
new_text=hparser.unescape(raw_text)