Question

快一点。我是新手使用lxml并且花了很长时间试图从特定网站抓取文本数据。元素结构如下所示：

我想要做的是提取突出显示区域内显示的100,100。我尝试过的语句包括（我将网站的源代码保存到文本文件中进行测试，test.txt - 也尝试使用html扩展名）：

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

所有我似乎得到的结果是一个空列表[]，任何帮助将不胜感激。

ps我注释掉了两个值语句，因为我正在展示我尝试的内容。我尝试了一些与上面类似的其他xpath语句但是当python shell崩溃时它们就丢失了。

PPS。对于pic的链接道歉 - 由于代表我无法直接发布图片。

Answer 1

尝试删除＆＃39; / tbody＆＃39;来自xpath。

浏览器可能正在添加`/ tbody＆＃39;标签，但它可能不会出现在原始HTML中。

了解更多here和here。

使用lxml / xpath（）从站点抓取文本时出现问题

1 个答案: