有没有办法配置lxml不剥离HTML实体?即。
from lxml import etree
parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)
html = '<html><body><p>à</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'
我想将à
保留在HTML中,而不是将其删除。
答案 0 :(得分:0)
我解决了将etree.XMLParser
切换为etree.HTMLParser
和etree.XML
切换为etree.HTML
的问题。