如何在使用lxml解析HTML时保留HTML实体?

时间:2015-07-20 12:30:58

标签: python html lxml html-entities

有没有办法配置lxml不剥离HTML实体?即。

from lxml import etree

parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)

html = '<html><body><p>&agrave;</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'

我想将&agrave;保留在HTML中,而不是将其删除。

1 个答案:

答案 0 :(得分:0)

我解决了将etree.XMLParser切换为etree.HTMLParseretree.XML切换为etree.HTML的问题。