我是一个全新的,所以请原谅我可能真的很容易。我正在使用mechanize登录到受pw保护的站点 - 它工作正常并返回登录后页面的html。我试图将该html传递给lxml来解析一些表结果。这不起作用,而不是使用xpath解析print txt1返回所有的html。
这是我发布成功登录的代码:
# Get html
html = br.response().read()
# LXML
doc = lxml.html.parse(html).getroot()
txt1 = doc.xpath('/html/body/div/div[2]/div[3]/div[1]/table[1]/tbody/tr[1]/th//text()')
print txt1
我从chrome检查员那里获得了HTML的HTML。
答案 0 :(得分:0)
从PyPI安装cssselect
。
dom = lxml.html.fromstring(html)
tables = dom.cssselect('table')
print tables[0].text_content()