从this page(和其他类似的东西)我需要在页面底部获取每个作者的绝对xpath。作者的数量因页面而异。
使用xpath //p[@class="blue"]/b/text()
我能够检索所有作者名称,但我需要每个作者的确切xpath(没有类或ID)。
我需要为第一作者获取此form_table3_tr_td_table5_tr_td_table1_tr_td2_table1_tr_td2_p_b_text()
,为第二个ecc获取form_table3_tr_td_table5_tr_td_table1_tr_td2_table2_tr_td2_p_b_text()
。
编辑: 这是我用来检索具有作者姓名的列表的代码:
import requests
from lxml import html
url="http://www.dlib.org/dlib/november14/voelske/11voelske.html"
page = requests.get(url)
tree = html.fromstring(page.content)
authors=tree.xpath('//p[@class="blue"]/b/text()')
答案 0 :(得分:0)
试试这个xpath:
//table[1]/tbody/tr/td/p[@class='blue']/b
如果更改[2]中的[1] ... [3],你将能够获得所有绝对值xpath