Question

难以获得正确的XPath来刮除我的Scoop.it主题的任何图像的真实URL。这是集中在一幅图像上的代码摘录。其他图像的处理方式相同。

<div class="thisistherealimage"  >
    <img id="Here a specific image ID" width="467" height="412" 
    class="postDisplayedImage lazy"
    src="/resources/img/white.gif" 
    data-original="https://img.scoop.it/jKj7v6ojzPtACT6EaeztHTl72eJkfbmt4t8yenImKBVvK0kTmF0xjctABnaLJIm9"
    alt="Here an alternative text" style="width:467; height: 412;" />

因此，在此代码示例中，我不想刮取“ /resources/img/white.gif”，而是要刮除“ data-original”属性后面的URL！

我想捕获data-original属性，不仅要捕获包含URL的属性。

作为XPath初学者，我尝试过//div[contains(@class,'thisistherealimage')]/img[contains(@class,'postDisplayedImage')][contains(@class,'lazy')]！但这不是特定于data-original属性。不是吗？

有什么建议吗？

Answer 1

如果您想要data-original，则可以这样访问：

//div[contains(@class,'thisistherealimage')]/img[contains(@class,'postDisplayedImage') and contains(@class,'lazy')]/@data-original

<img/>元素中不常见的第二个URL属性的XPath公式

1 个答案: