用jsoup android解析html代码

时间:2014-10-23 17:27:28

标签: java android html jsoup

你可以帮我解析HTML网站吗? 我需要获取图像的src并链接到另一个页面,但我不知道为什么我得到空列表 这是我的代码:

Elements elems2 = doc.select("div");
for (Element elem2 : elems2) {
    if (elem2.attr("class").equals("grid-box-img")) {
        System.out.println(elem2.attr("img"));
        kfunewphoto.add(elem2.attr("src"));
    }
}

和html的例子:

<div class="grid-box-img"><a href="http://cleverrussia.com/shou-talanty-uspej-uvidet-pervym/" rel="bookmark" title="Шоу &#8220;Таланты&#8221;. Успей увидеть первым!"><img width="680" height="470" src="http://cleverrussia.com/wp-content/uploads/2014/10/shou-talanty-uspej-uvidet-pervym-clever-russia.png" class="attachment-full wp-post-image" alt="shou-talanty-uspej-uvidet-pervym-clever-russia" /></a></div>

我需要获得“http://cleverrussia.com/wp-content/uploads/2014/10/shou-talanty-uspej-uvidet-pervym-clever-russia.png”和代码的第二部分:

            Elements elems = doc.select("h2");
            for (Element elem : elems) {
                if (elem.attr("class").equals("entry-title")) {
                    str = elem.text();
                    kfunews.add(elem.text());
                    kfunewslist1.add(elem.attr("href"));
                }

<h2 class="entry-title"><a href="http://cleverrussia.com/shou-talanty-uspej-uvidet-pervym/" title="Permalink to Шоу &#8220;Таланты&#8221;. Успей увидеть первым!" rel="bookmark">Шоу &#8220;Таланты&#8221;. Успей увидеть первым!</a></h2>

我需要得到:“http://cleverrussia.com/shou-talanty-uspej-uvidet-pervym/
这是完整的页面代码 - view-source:http://cleverrussia.com/

1 个答案:

答案 0 :(得分:0)

错误在于您尝试选择img和a属性。请查看以下代码,了解如何修复代码。

// Prints the image source
System.out.println(elem2.select("img").attr("src"));
kfunewphoto.add(elem2.select("img").attr("src"));
// Prints the target link
System.out.println(elem.select("a").attr("href"));
kfunewslist1.add(elem.select("a").attr("href"));