在朋友的帮助下,我制作了一个脚本,从http://www.carwale.com/mercedesbenz-cars/e-class/e63amg-3049/等网页中提取所有规格和功能 ,它有效但不完美。
他告诉我使用XPath //tr[contains (.,"FEATURE NAME")]/td[2]
,但其中一个是不可能选择的,使用//tr[contains (.,"Display")]/td[2]
它提取包含单词Display
的4个功能。有没有办法只选择一个标记为Display的那个?
<td>Trip Meter</td><td>Multi-Function Display </td>
<td>Heads Up Display (HUD)</td><td>No </td>
<td>Display</td><td>LCD Display </td>
<td>Display Screen for Rear Passengers</td><td>No </td>
我还使用XPath //div[@class='colorName']
我还想要汽车颜色RGB值,或整个样式代码,并使用find / replace删除不需要的代码,我需要什么XPath?
<div class="colours" style="background-color: #040404; height: 30px; width: 130px; margin: 7px"></div>
答案 0 :(得分:0)
提取'td'标签,其中包含'显示',如果它的前一个兄弟包含'显示':
//tr/td[contains(.,'Display')]/following-sibling::td[contains(.,'Display')]
提取RGB十六进制字符串:
//div/substring-before(substring-after(@style,'background-color: '),';')