如何用Jsoup放弃部分网页?

时间:2012-04-07 23:34:58

标签: java webpage jsoup

我目前正在使用Jsoup来解析html。代码非常简单:

Document doc = null;
    try{
        doc = Jsoup.connect(link).get();    
    }
    catch (Exception e) {
        //System.out.println("Some error occured.");
        textView.setText(e.getMessage());
    }

它确实为我提供了我想要的网页,之后我可以使用它的getElementsByTag方法从该网页中提取我需要的数据,依此类推。但是,我只想使用网页的一部分,例如,我希望在<之后放弃所有内容。 ! - / foo - >在我的网页上。 (实际上它在<和!之间没有空白,但我不能在这里输入。)有没有办法在该字符串之后放弃网页并获得仅包含我想要的部分的新文档?我检查了食谱,但它似乎只处理它的结构中的网页,所以我不太确定可以做一些像删除字符串的东西。谢谢你的阅读。

1 个答案:

答案 0 :(得分:1)

您可以使用Document doc = Jsoup.parse(html),其中HTML是页面HTML。即

首先使用HTML
   Connection connect = Jsoup.connect(url);
   Connection.Response response = connect.execute();
   String html = response.body();

然后执行您需要的任何操作(例如,在标记后剪切HTML,但添加必要的结束HTML标记),然后

   Document doc = Jsoup.parse(html)