如何使用jsoup从html文件中提取文本

时间:2013-03-15 16:04:38

标签: html jsoup

我使用过这段代码:

String innerHtml = Jsoup.parse(htmlCode,"ISO-8859-1").select("body").html();

但它只删除了<html>个标签

HTML内的所有body代码仍会显示

2 个答案:

答案 0 :(得分:7)

使用.text()代替.html()来获取元素及其所有子元素的组合文本。

答案 1 :(得分:6)

尝试使用.text()

Jsoup.parse(htmlCode,"ISO-8859-1").select("body").text();

而不是.html()