<img/>元素中不常见的第二个URL属性的XPath公式

时间:2018-08-20 14:47:03

标签: xpath web-scraping

难以获得正确的XPath来刮除我的Scoop.it主题的任何图像的真实URL。这是集中在一幅图像上的代码摘录。其他图像的处理方式相同。

<div class="thisistherealimage"  >
    <img id="Here a specific image ID" width="467" height="412" 
    class="postDisplayedImage lazy"
    src="/resources/img/white.gif" 
    data-original="https://img.scoop.it/jKj7v6ojzPtACT6EaeztHTl72eJkfbmt4t8yenImKBVvK0kTmF0xjctABnaLJIm9"
    alt="Here an alternative text" style="width:467; height: 412;" />

因此,在此代码示例中,我不想刮取“ /resources/img/white.gif”,而是要刮除“ data-original”属性后面的URL!

我想捕获data-original属性,不仅要捕获包含URL的属性。

作为XPath初学者,我尝试过//div[contains(@class,'thisistherealimage')]/img[contains(@class,'postDisplayedImage')][contains(@class,'lazy')]! 但这不是特定于data-original属性。不是吗?

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

如果您想要data-original,则可以这样访问:

//div[contains(@class,'thisistherealimage')]/img[contains(@class,'postDisplayedImage') and contains(@class,'lazy')]/@data-original