我需要将org.w3c.dom.Document
转换为org.jdom.Document
我已尝试过以下内容..
InputStream inputStream = new ByteArrayInputStream(str.getBytes());
Tidy tidy = new Tidy();
tidy.setMakeClean(false);
tidy.setShowWarnings(true); //tidy.setShowWarnings(false);
tidy.setTidyMark(false);
tidy.setNumEntities(true);
tidy.setQuoteAmpersand(true);
tidy.setQuoteMarks(true);
tidy.setQuoteNbsp(false);
tidy.setHideEndTags(false);
tidy.setDropEmptyParas(false);
Document tidyDOM =tidy.parseDOM(inputStream, null);
DOMBuilder domBuilder = new DOMBuilder();
org.jdom.Document jdomDoc = domBuilder.build(tidyDOM);
domBuilder.build(tidyDOM)
抛出以下异常:
org.jdom.IllegalNameException: The name "html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"" is not legal for JDOM/XML DocTypes: XML names cannot contain the character " ".
at org.jdom.DocType.setElementName(DocType.java:171)
at org.jdom.DocType.<init>(DocType.java:111)
at org.jdom.DocType.<init>(DocType.java:144)
at org.jdom.DefaultJDOMFactory.docType(DefaultJDOMFactory.java:118)
at org.jdom.input.DOMBuilder.buildTree(DOMBuilder.java:332)
at org.jdom.input.DOMBuilder.buildTree(DOMBuilder.java:170)
at org.jdom.input.DOMBuilder.build(DOMBuilder.java:135)
at test.JaxenTest.testParsingVisitor(JaxenTest.java:58)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
答案 0 :(得分:0)
我认为JTidy正在创建格式错误的DocType节点。我建议使用不同的HTML解析器。
我推荐The Validator.nu HTML Parser,但还有很多其他人。
答案 1 :(得分:0)
添加这两个设置,一切都应该有效。
tidy.setXHTML(true);
tidy.setDocType("omit");
第一个设置告诉jTidy输出XHTML文件。 XHTML文件是有效的XML。
第二个选项卡告诉整洁不要将DOCTYPE行输出到代码中。出于某种原因,JDom似乎无法识别合法的html / xhtml文档类型。