我正在使用xpath处理一个刮刀,但xpath似乎莫名其妙地无法修复我需要的信息。我已经能够得到下面的代码来打印表元素及其所有内容,但是一旦我尝试转到tbody或tr元素,它就会开始返回None。你也可以看到下面的网址。
我在Firefox中使用XPather来确认下面的内容是正确的,但由于某种原因,一旦放入Python就会失败。
url = 'http://www.arkleg.state.ar.us/assembly/2011/2011R/pages/CommitteeDetail.aspx?committeecode=000'
with self.urlopen(url) as page:
page = lxml.html.fromstring(page)
for tr in page.xpath('//table[@class="gridtable"]/tbody/tr'):
print tr.xpath('string(td[1])')
答案 0 :(得分:2)
Firefox在tbody
元素中添加了隐式table
,但在该页面的源HTML中不存在。这个XPATH应该可以找到所有tr
标签:
for node in page.xpath('.//table[@class="gridtable"]/tr'):