无法从机械化将html传递给lxml

时间:2013-12-28 06:49:11

标签: html parsing mechanize lxml

我是一个全新的,所以请原谅我可能真的很容易。我正在使用mechanize登录到受pw保护的站点 - 它工作正常并返回登录后页面的html。我试图将该html传递给lxml来解析一些表结果。这不起作用,而不是使用xpath解析print txt1返回所有的html。

这是我发布成功登录的代码:

# Get html
html = br.response().read()

# LXML
doc = lxml.html.parse(html).getroot()

txt1 = doc.xpath('/html/body/div/div[2]/div[3]/div[1]/table[1]/tbody/tr[1]/th//text()')

print txt1

我从chrome检查员那里获得了HTML的HTML。

1 个答案:

答案 0 :(得分:0)

从PyPI安装cssselect

dom = lxml.html.fromstring(html)
tables = dom.cssselect('table')
print tables[0].text_content()