使用相对xpath刮取自定义div属性

时间:2019-02-11 05:05:54

标签: xpath google-sheets google-sheets-formula google-sheets-importxml

我有数百个URL,我要在这些URL上抓取页面上图像的图像路径。每个页面具有相同的格式,但是div类对于每个页面都是唯一的。

我希望能够在Google表格中使用import xml来仅抓取data-path元素的内容。

我尝试使用xpath提取URL失败,并且失败。

<div class="uniqueid active" data-path="/~/media/Images/image.jpg" data-alt="Anything"></div>

例如//div[@class='*']/@data-path"

网站示例:https://www.cannondale.com/en/Australia/Bike/ProductDetail?Id=77d3b8fe-41f7-42b6-bf69-b5cf0ae55548&parentid=undefined

1 个答案:

答案 0 :(得分:0)

如果div类具有模式"uniqueid active",则可以尝试以下XPath:

//div[contains(@class, "active")]/@data-path

否则,如果div类可以是任何东西,请使用以下查询:

//div[@class]/@data-path

更新:

我尝试使用 IMPORTXML 获取data-path属性的值,但没有成功。尝试使用Python(requestslxml)来完成此操作,并且可以正常工作。因此问题可能出在Google表格中-一些限制或错误,idk。