使用lxml / xpath()从站点抓取文本时出现问题

时间:2014-09-29 15:20:27

标签: python xpath lxml

快一点。我是新手使用lxml并且花了很长时间试图从特定网站抓取文本数据。元素结构如下所示:

http://tinypic.com/r/2iw7zaa/8

我想要做的是提取突出显示区域内显示的100,100。我尝试过的语句包括(我将网站的源代码保存到文本文件中进行测试,test.txt - 也尝试使用html扩展名):

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

所有我似乎得到的结果是一个空列表[],任何帮助将不胜感激。

ps我注释掉了两个值语句,因为我正在展示我尝试的内容。我尝试了一些与上面类似的其他xpath语句但是当python shell崩溃时它们就丢失了。

PPS。对于pic的链接道歉 - 由于代表我无法直接发布图片。

1 个答案:

答案 0 :(得分:1)

尝试删除' / tbody'来自xpath。

浏览器可能正在添加`/ tbody'标签,但它可能不会出现在原始HTML中。

了解更多herehere