我应该使用什么XPath来提取<div>的内容,然后再提取另一个带有特定标签的<div>?

时间:2019-02-07 22:58:09

标签: xpath web-scraping extraction

我需要从carpages.co.uk(示例页面http://www.carpages.co.uk/guide/bmw/bmw-3-series-318i-se.asp)中提取所有汽车的汽车规格和功能,并且每个功能都有一个带有ALT标签的图像:标准/可选/不适用

//div/following::div[contains(.,"Power Steering")]//img/@alt

我尝试了上面的XPath,但是在本例中的Power Steering中,它获得了每一行功能,而不是仅获得我标记了该行的ALT标签。从// img中删除斜杠使其不提取任何内容。

我还需要提取其他规格,例如功率,扭矩等。

有人可以帮助我使用有效的XPath吗?

1 个答案:

答案 0 :(得分:0)

尝试此XPath:

//div[contains(., "Power Steering")]/following::div[1]/img/@alt