Question

在朋友的帮助下，我制作了一个脚本，从http://www.carwale.com/mercedesbenz-cars/e-class/e63amg-3049/等网页中提取所有规格和功能，它有效但不完美。

他告诉我使用XPath //tr[contains (.,"FEATURE NAME")]/td[2]，但其中一个是不可能选择的，使用//tr[contains (.,"Display")]/td[2]它提取包含单词Display的4个功能。有没有办法只选择一个标记为Display的那个？

<td>Trip Meter</td><td>Multi-Function Display </td>
<td>Heads Up Display (HUD)</td><td>No </td>
<td>Display</td><td>LCD Display </td>
<td>Display Screen for Rear Passengers</td><td>No </td>

我还使用XPath //div[@class='colorName']

提取汽车颜色名称

我还想要汽车颜色RGB值，或整个样式代码，并使用find / replace删除不需要的代码，我需要什么XPath？

<div class="colours" style="background-color: #040404; height: 30px; width: 130px; margin: 7px"></div>

Answer 1

提取'td'标签，其中包含'显示'，如果它的前一个兄弟包含'显示'：

//tr/td[contains(.,'Display')]/following-sibling::td[contains(.,'Display')]

提取RGB十六进制字符串：

//div/substring-before(substring-after(@style,'background-color: '),';')

XPATH从CarWale.com提取数据？

1 个答案: