Question

我正在使用jsoup来抓取不同的html页面：

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}

它很漂亮。然而，似乎有很多与其回报相关的毛病（即：网站链接[a href]）。有没有快速的方法在jsoup中省略这个？我找到了getElementsByTag文献，但我很难使用它。

提前谢谢你。

Answer 1

您可以“清理”已解析的文档，请参阅example。例如，只留下简单的文字：

Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);

或者，您可以简单地删除所有a代码：

doc.select("a").remove();

忽略jsoup解析中的链接，广告等

1 个答案: