我尝试使用JSoup来获取此网址“http://binscorner.com/pages/t/timesofindiacartoons.html”的内容,其中包含卡通图片但在图片标记中包含图片的网址。 我需要刮掉所有的卡通形象。我不知道如何获得实际图像。怎么做?
<font size="3" face="Times New Roman">
<br />
<br />
</font>
<img src="http://www.binscorner.com/mails/res/grey.gif" alt="" width="283" height="487" data-original="http://binscorner.com/mails//t/timesofindiacartoons/part-003.jpeg" />
<p>
<font size="3" face="Times New Roman">
</font>
</p>
<p>
<img src="http://www.binscorner.com/mails/res/grey.gif" alt="" width="330" height="591" data-original="http://binscorner.com/mails//t/timesofindiacartoons/part-004.jpeg" />
</p>
<p>
<img src="http://www.binscorner.com/mails/res/grey.gif" alt="" width="330" height="591" data-original="http://binscorner.com/mails//t/timesofindiacartoons/part-005.jpeg" />
</p>
<p>
<img src="http://www.binscorner.com/mails/res/grey.gif" alt="" width="330" height="591" data-original="http://binscorner.com/mails//t/timesofindiacartoons/part-006.jpeg" />
</p>
<p>
答案 0 :(得分:2)
我会尝试通过img
获取所有select("img")
代码,然后使用attr("data-original")
获取您喜欢的属性。
有关教程,请参阅:http://jsoup.org/cookbook/extracting-data/example-list-links
答案 1 :(得分:2)
喜欢@Mike说
<强>代码强>
Document document = Jsoup.parse(html);
Elements images = document.select("img");
for (Element image : images) {
String imageUrl = image.attr("data-original");
System.out.println(imageUrl);
}
<强>结果强>
http://binscorner.com/mails//t/timesofindiacartoons/part-003.jpeg
http://binscorner.com/mails//t/timesofindiacartoons/part-004.jpeg
http://binscorner.com/mails//t/timesofindiacartoons/part-005.jpeg
http://binscorner.com/mails//t/timesofindiacartoons/part-006.jpeg