Question

我是一个全新的，所以请原谅我可能真的很容易。我正在使用mechanize登录到受pw保护的站点 - 它工作正常并返回登录后页面的html。我试图将该html传递给lxml来解析一些表结果。这不起作用，而不是使用xpath解析print txt1返回所有的html。

这是我发布成功登录的代码：

# Get html
html = br.response().read()

# LXML
doc = lxml.html.parse(html).getroot()

txt1 = doc.xpath('/html/body/div/div[2]/div[3]/div[1]/table[1]/tbody/tr[1]/th//text()')

print txt1

我从chrome检查员那里获得了HTML的HTML。

Answer 1

从PyPI安装cssselect。

dom = lxml.html.fromstring(html)
tables = dom.cssselect('table')
print tables[0].text_content()

无法从机械化将html传递给lxml

1 个答案: