Python:获取页面内元素的绝对xpath

时间:2015-09-24 15:18:31

标签: python html xpath

this page(和其他类似的东西)我需要在页面底部获取每个作者的绝对xpath。作者的数量因页面而异。 使用xpath //p[@class="blue"]/b/text()我能够检索所有作者名称,但我需要每个作者的确切xpath(没有类或ID)。

我需要为第一作者获取此form_table3_tr_td_table5_tr_td_table1_tr_td2_table1_tr_td2_p_b_text(),为第二个ecc获取form_table3_tr_td_table5_tr_td_table1_tr_td2_table2_tr_td2_p_b_text()

编辑: 这是我用来检索具有作者姓名的列表的代码:

import requests
from lxml import html

url="http://www.dlib.org/dlib/november14/voelske/11voelske.html"
page = requests.get(url)
tree = html.fromstring(page.content)
authors=tree.xpath('//p[@class="blue"]/b/text()')

1 个答案:

答案 0 :(得分:0)

试试这个xpath:

//table[1]/tbody/tr/td/p[@class='blue']/b

如果更改[2]中的[1] ... [3],你将能够获得所有绝对值xpath