我有一个用UTF-16 LE编码的超级简单XML文档。
<?xml version="1.0" encoding="utf-16"?><X id="1" />
我正在加载它(使用jcabi-xml
):
BOMInputStream bomIn = new BOMInputStream(Main.class.getResourceAsStream("resources/test.xml"), ByteOrderMark.UTF_16LE);
String firstNonBomCharacter = Character.toString((char)bomIn.read());
Reader reader = new InputStreamReader(bomIn, "UTF-16");
String xmlString = IOUtils.toString(reader);
xmlString = xmlString.trim();
xmlString = firstNonBomCharacter + xmlString;
bomIn.close();
reader.close();
final XML xml = new XMLDocument(xmlString);
我已经通过保存文件并使用十六进制编辑器检查它来检查没有额外的BOM /垃圾符号(前导或任何地方)。 XML格式正确。
但是,我仍然会收到以下错误:
[Fatal Error] :1:40: Content is not allowed in prolog.
Exception in thread "main" java.lang.IllegalArgumentException: Invalid XML: "<?xml version="1.0" encoding="utf-16"?><X id="1" />"
at com.jcabi.xml.DomParser.document(DomParser.java:115)
at com.jcabi.xml.XMLDocument.<init>(XMLDocument.java:155)
at Main.getTransformedString(Main.java:47)
at Main.main(Main.java:26)
Caused by: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 40; Content is not allowed in prolog.
at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
at com.jcabi.xml.DomParser.document(DomParser.java:105)
... 3 more
我已经上下搜索了这个错误,但是他们都说这是BOM的错,我已经确认(据我所知)并非如此。还有什么可能是错的?
答案 0 :(得分:2)
以下适用于我:
try (InputStream stream = Test.class.getResourceAsStream("/Test.xml")) {
StreamSource source = new StreamSource(stream);
final XML xml = new XMLDocument(source);
}
使用输入文件的十六进制转储:
FF FE 3C 00 3F 00 78 00 6D 00 6C 00 20 00 76 00 65 00 72 00 73 00 69 00
6F 00 6E 00 3D 00 27 00 31 00 2E 00 30 00 27 00 20 00 65 00 6E 00 63 00
6F 00 64 00 69 00 6E 00 67 00 3D 00 27 00 55 00 54 00 46 00 2D 00 31 00
36 00 27 00 3F 00 3E 00 3C 00 58 00 20 00 69 00 64 00 3D 00 22 00 31 00
22 00 2F 00 3E 00
据我所知,在您的示例中,您正在将文件的内容转换为字符串。但这是有问题的,因为在将字节转换为字符串时,实际上会丢弃编码。当SAX解析器将字符串转换为字节数组时,它决定它将是UTF-8,但是prolog声明它是UTF-16,所以你有问题。
相反,当我使用StreamSource时,它只是自动检测文件是从BOM中以UTF-16 LE编码的事实。
如果你没有使用java-7或者不能使用try-with-resources,那么像以前一样使用stream.close()。