html表上的xpath查询始终在python中返回空字符串

时间:2018-10-02 12:20:15

标签: python xpath python-requests lxml

这是我尝试过的python代码:

from lxml import html
import requests


page = requests.get('http://www.rsssf.com/tablese/eng2017det.html')
tree = html.fromstring(page.content)
print(tree.xpath('/html/body/table/tbody/tr[2]//text()'))

我总是将输出作为[] 我还检查了html页面,URL没有损坏

1 个答案:

答案 0 :(得分:1)

请勿在XPath中使用tbody标记。请注意,开发人员可能会跳过此标记,因此页面呈现时浏览器会自动添加该标记。

只需尝试

print(tree.xpath('/html/body/table//tr[2]//text()'))

print([i for i in tree.xpath('/html/body/table//tr[2]//text()') if i.strip()])

避免打印换行符