我有数百个URL,我要在这些URL上抓取页面上图像的图像路径。每个页面具有相同的格式,但是div类对于每个页面都是唯一的。
我希望能够在Google表格中使用import xml来仅抓取data-path元素的内容。
我尝试使用xpath提取URL失败,并且失败。
<div class="uniqueid active" data-path="/~/media/Images/image.jpg" data-alt="Anything"></div>
例如//div[@class='*']/@data-path"
答案 0 :(得分:0)
如果div类具有模式"uniqueid active"
,则可以尝试以下XPath:
//div[contains(@class, "active")]/@data-path
否则,如果div类可以是任何东西,请使用以下查询:
//div[@class]/@data-path
更新:
我尝试使用 IMPORTXML 获取data-path
属性的值,但没有成功。尝试使用Python(requests
和lxml
)来完成此操作,并且可以正常工作。因此问题可能出在Google表格中-一些限制或错误,idk。