我已将HTML内容传递给字符串“Html_content”。我需要解析字符串“Html_content”并使用ID来选择几个DIV标签,例如“fullHeader”是DIV的id,我需要选择“fullHeader”div标签内的内容并将其存储为字符串。
我尝试了JSOUP但是我需要将收集的div标签保存在Document中,但我需要将其保存为字符串,但是使用Jsoup是不可能的,还有其他选择吗?
答案 0 :(得分:3)
但我需要将其保存为字符串,但使用Jsoup 无法实现
错了,Jsoup有一个Element#text()
方法。
String text = element.text(); // <div>foo<b>bar</b></div> will give "foobar"
// ...
或者,如果您想在字符串中包含HTML,请使用Element.html()
或Element#outerHtml()
,具体取决于要求。
String html = element.html(); // <div>foo<b>bar</b></div> will give "foo<b>bar</b>"
// ...
或
String html = element.outerHtml(); // <div>foo<b>bar</b></div> will give exact this string
// ...
答案 1 :(得分:3)
JSoup正是您所需要的。我的理解是你需要以String形式返回给你的HTML元素,以便你可以进一步使用它们来创建另一个文档。
假设您有从Element中提取的 ele 元素对象。
现在写
String htmlForEle = new Element(Tag.valueOf(“div”))。append(ele.clone())。remove()。html();
html for ele正是您所寻找的。 p>
答案 2 :(得分:0)
如果强制使用HTML转换为XML语法,则可以使用XPath,SAX,DOM和其他XML工具来处理文档。