Question

有没有办法配置lxml不剥离HTML实体？即。

from lxml import etree

parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)

html = '<html><body><p>&agrave;</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'

我想将à保留在HTML中，而不是将其删除。

Answer 1

我解决了将etree.XMLParser切换为etree.HTMLParser和etree.XML切换为etree.HTML的问题。

如何在使用lxml解析HTML时保留HTML实体？

1 个答案: