如何使用lxml处理嵌套的表单标记

时间:2011-07-08 05:32:53

标签: python beautifulsoup lxml

我想抓一些带有lxml嵌套表单元素的html页面。即使是BeautifulSoup在这些页面上窒息,我发现到目前为止唯一可以处理它们的解析器是MinimalSoup,它不知道哪些标签可以嵌套。

lxml是否有任何不关心嵌套表单标签的解析器? 还有其他建议吗?

如果必须,我将继续使用MinimalSoup。

1 个答案:

答案 0 :(得分:1)

lxml.etree.HTMLParser怎么样?这应该相对较好,对吗?

import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)

你有你的树!