使用Python将HTML表示替换为ascii

时间:2011-11-08 21:45:52

标签: python encoding

  

可能重复:
  Decode HTML entities in Python string?

我已经解析了一些HTML文本。但像撇号这样的一些标点符号被’取代。如何将它们还原为`

P.S:我正在使用Python / Feedparser

由于

2 个答案:

答案 0 :(得分:1)

PSF Wiki有一些方法可以做到这一点。这是一种方式:

import htmllib

def unescape(s):
    p = htmllib.HTMLParser(None)
    p.save_bgn()
    p.feed(s)
    return p.save_end()

请参阅http://wiki.python.org/moin/EscapingHtml

答案 1 :(得分:0)

这对我有帮助

import HTMLParser

hparser=HTMLParser.HTMLParser()
new_text=hparser.unescape(raw_text)