解析字符串并收集具有不同id的HTML元素

时间:2011-05-10 13:13:49

标签: java html-parsing jsoup

我已将HTML内容传递给字符串“Html_content”。我需要解析字符串“Html_content”并使用ID来选择几个DIV标签,例如“fullHeader”是DIV的id,我需要选择“fullHeader”div标签内的内容并将其存储为字符串。

我尝试了JSOUP但是我需要将收集的div标签保存在Document中,但我需要将其保存为字符串,但是使用Jsoup是不可能的,还有其他选择吗?

3 个答案:

答案 0 :(得分:3)

  

但我需要将其保存为字符串,但使用Jsoup 无法实现

错了,Jsoup有一个Element#text()方法。

String text = element.text(); // <div>foo<b>bar</b></div> will give "foobar"
// ...

或者,如果您想在字符串中包含HTML,请使用Element.html()Element#outerHtml(),具体取决于要求。

String html = element.html(); // <div>foo<b>bar</b></div> will give "foo<b>bar</b>"
// ...

String html = element.outerHtml(); // <div>foo<b>bar</b></div> will give exact this string
// ...

答案 1 :(得分:3)

JSoup正是您所需要的。我的理解是你需要以String形式返回给你的HTML元素,以便你可以进一步使用它们来创建另一个文档。

假设您有从Element中提取的 ele 元素对象。

现在写

String htmlForEle = new Element(Tag.valueOf(“div”))。append(ele.clone())。remove()。html();

html for ele正是您所寻找的。

答案 2 :(得分:0)

如果强制使用HTML转换为XML语法,则可以使用XPath,SAX,DOM和其他XML工具来处理文档。