XPATH从CarWale.com提取数据?

时间:2016-06-29 09:39:02

标签: xpath extract

在朋友的帮助下,我制作了一个脚本,从http://www.carwale.com/mercedesbenz-cars/e-class/e63amg-3049/等网页中提取所有规格和功能 ,它有效但不完美。

他告诉我使用XPath //tr[contains (.,"FEATURE NAME")]/td[2],但其中一个是不可能选择的,使用//tr[contains (.,"Display")]/td[2]它提取包含单词Display的4个功能。有没有办法只选择一个标记为Display的那个?

<td>Trip Meter</td><td>Multi-Function Display </td>
<td>Heads Up Display (HUD)</td><td>No </td>
<td>Display</td><td>LCD Display </td>
<td>Display Screen for Rear Passengers</td><td>No </td>

我还使用XPath //div[@class='colorName']

提取汽车颜色名称

我还想要汽车颜色RGB值,或整个样式代码,并使用find / replace删除不需要的代码,我需要什么XPath?

<div class="colours" style="background-color: #040404; height: 30px; width: 130px; margin: 7px"></div>

1 个答案:

答案 0 :(得分:0)

提取'td'标签,其中包含'显示',如果它的前一个兄弟包含'显示':

//tr/td[contains(.,'Display')]/following-sibling::td[contains(.,'Display')]

提取RGB十六进制字符串:

//div/substring-before(substring-after(@style,'background-color: '),';')