我正在使用jsoup来抓取不同的html页面:
public class HtmlParse {
public static void main(String[] args) throws IOException {
String site = args[0];
Document doc = Jsoup.connect(site).get();
String htm = doc.body().text();
System.out.println(htm);
}
}
它很漂亮。然而,似乎有很多与其回报相关的毛病(即:网站链接[a href])。有没有快速的方法在jsoup中省略这个?我找到了getElementsByTag文献,但我很难使用它。
提前谢谢你。
答案 0 :(得分:6)
您可以“清理”已解析的文档,请参阅example。 例如,只留下简单的文字:
Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);
或者,您可以简单地删除所有a
代码:
doc.select("a").remove();