如何使用jsoup从网页中提取特定内容

时间:2013-03-01 19:50:41

标签: jsoup

我只需从网页http://www.informatik.uni-trier.de/~ley/pers/hd/r/Rao:Rahul.html中提取这些出版物,第一作者是Rahul Rao。

我已经尝试了以下代码,但它没有给我任何输出。

for( Element element : doc.select("table span.this-person.title") ){
System.out.println(element.text());
}

获得首选输出需要什么?提前谢谢。

2 个答案:

答案 0 :(得分:1)

以下代码将为您提供预期的输出..看看它是否对您有帮助!!

文档doc = Jsoup.connect(“http://www.informatik.uni-trier.de/~ley/pers/hd/r/Rao:Rahul.html”)。get();         Elements span = doc.select((“div [class = data]”));

    //System.out.println(span.tagName("span"));
    for (Element src : span) {

        for(int i=0;i<src.childNodeSize();i++){
            if(src.childNodes().get(0).toString().contains("Rahul Rao")){
                if(src.childNodes().get(i).toString().contains("<span class=\"title\">")){
                    System.out.println(src.childNodes().get(i));
                }

            }

答案 1 :(得分:0)

我试图提取页面上发布的出版物并取得了一些成功。

代码如下:

Document doc = Jsoup.connect("http://www.informatik.uni-trier.de/~ley/pers/hd/r/Rao:Rahul.html").get();
    Elements span = doc.select("span");
    for (Element src : span) {
        if (src.tagName().equals("span")){
            System.out.println();
            System.out.print( src.ownText() );
        }
    }

请看看它是否有帮助!!