难以获得正确的XPath来刮除我的Scoop.it主题的任何图像的真实URL。这是集中在一幅图像上的代码摘录。其他图像的处理方式相同。
<div class="thisistherealimage" >
<img id="Here a specific image ID" width="467" height="412"
class="postDisplayedImage lazy"
src="/resources/img/white.gif"
data-original="https://img.scoop.it/jKj7v6ojzPtACT6EaeztHTl72eJkfbmt4t8yenImKBVvK0kTmF0xjctABnaLJIm9"
alt="Here an alternative text" style="width:467; height: 412;" />
因此,在此代码示例中,我不想刮取“ /resources/img/white.gif”,而是要刮除“ data-original”属性后面的URL!
我想捕获data-original
属性,不仅要捕获包含URL的属性。
作为XPath初学者,我尝试过//div[contains(@class,'thisistherealimage')]/img[contains(@class,'postDisplayedImage')][contains(@class,'lazy')]
!
但这不是特定于data-original
属性。不是吗?
有什么建议吗?
答案 0 :(得分:0)
如果您想要data-original
,则可以这样访问:
//div[contains(@class,'thisistherealimage')]/img[contains(@class,'postDisplayedImage') and contains(@class,'lazy')]/@data-original