我想抓一些带有lxml嵌套表单元素的html页面。即使是BeautifulSoup在这些页面上窒息,我发现到目前为止唯一可以处理它们的解析器是MinimalSoup,它不知道哪些标签可以嵌套。
lxml是否有任何不关心嵌套表单标签的解析器? 还有其他建议吗?
如果必须,我将继续使用MinimalSoup。
答案 0 :(得分:1)
lxml.etree.HTMLParser怎么样?这应该相对较好,对吗?
import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)
你有你的树!