如何将Jsoup(Java html解析器)中生成的文档转换为字符串

时间:2011-07-28 20:13:55

标签: java html-parsing jsoup html-parser

我有一个jsoup中的文档,看起来像这样

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();

如何将doc转换为字符串。

3 个答案:

答案 0 :(得分:35)

你试过了吗?

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.toString();

文档扩展元素时,它还获得了方法 html(),根据{{检索元素的内部HTML“ 3}}。所以这应该有效:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();

其他信息:

每个 Document 对象都有一个对内部类 Document.OutputSettings 的实例的引用,可以通过 outputSettings()文件。在那里,您可以使用setter prettyPrint(true / false)启用/禁用漂亮打印。有关进一步信息,请参阅文档 Document.OutputSettings 的API

答案 1 :(得分:7)

doc.toString()doc.outerHtml()一样有用。

答案 2 :(得分:0)

 Document doc = Jsoup.connect("http://en.wikipedia.org/").get();     
 Elements post = doc.select("div.post-content");
 String dd = post.toString();
 Document ddd = Jsoup.parse(dd);

将字符串解析为文档后,您可以使用文档函数

 Elements scriptTag = ddd.getElementsByTag("script");
 System.out.println(scriptTag);