Question

我想抓一些带有lxml嵌套表单元素的html页面。即使是BeautifulSoup在这些页面上窒息，我发现到目前为止唯一可以处理它们的解析器是MinimalSoup，它不知道哪些标签可以嵌套。

lxml是否有任何不关心嵌套表单标签的解析器？还有其他建议吗？

如果必须，我将继续使用MinimalSoup。

Answer 1

lxml.etree.HTMLParser怎么样？这应该相对较好，对吗？

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

你有你的树！