使用Jsoup提取图像ID

时间:2015-11-07 16:05:21

标签: java web-scraping jsoup

我正在尝试使用api Jsoup提取特定的验证码图像ID,html图像标记如下:

<img id="wlspispHIPBimg03256465465dsd5456" style="display: inline; width: 200px; height: 100px;" aria-hidden="true" src="https://users/hip/data/rnd=435cb60d0a6b63ef4">

这是获取属性id="wlspispHIPBimg03256465465dsd5456"的代码:

doc = Jsoup.connect("http://go.microsoft.com/fwlink/?LinkID=614866&clcid")
                .timeout(0).get();

Elements images = doc.select("img[src~=(?i)]");
for (Element image : images) {
    System.out.println(image.attr("id"));
}

问题在于我无法获得验证码图片的ID

2 个答案:

答案 0 :(得分:0)

您需要在html中找到区分文档中任何其他标记的img标记的内容。从您发布的代码中无法推断,所以我在这里运用我的想象力:

Element imageEl = doc.select("img[scr*=rnd]").first();

这利用了图像的来源包含&#34; rnd&#34;在它的路径。要获得最佳解决方案,您必须自己看看。如果你学习了Jsoup的CSS选择器,它也会有很大的帮助。

答案 1 :(得分:0)

我认为你只能使用Jsoup来完成这个,使用javascript在运行时修改DOM,而jsoup根本不执行它。

另请查看其他question