我有一个包含阿拉伯字符的xml文件。当我尝试解析文件时,会出现异常,MalformedByteSequenceException:2字节UTF-8序列的无效字节2。我使用POI DOM来解析文档。< / p>
日志是,
2012-03-19 11:30:00,433 [ERROR] (com.infomindz.remitglobe.bll.remittance.BlackListBean) - Error
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 2-byte UTF-8 sequence.
at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.invalidByte(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.read(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.load(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.skipChar(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDriver.next(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLDocumentScannerImpl.next(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
at com.infomindz.remitglobe.bll.remittance.BlackListBean.updateGeneralBlackListDetail(Unknown Source)
at com.infomindz.remitglobe.bll.remittance.schedulers.BlackListUpdateScheduler.executeInternal(Unknown Source)
at org.springframework.scheduling.quartz.QuartzJobBean.execute(QuartzJobBean.java:86)
at org.quartz.core.JobRunShell.run(JobRunShell.java:216)
at org.quartz.simpl.SimpleThreadPool$WorkerThread.run(SimpleThreadPool.java:549)
异常只出现在Windows机器上,而不是出现在Linux机器上。如何解决这个问题。任何建议都应该引人注意。
答案 0 :(得分:13)
我通过使用UTF8格式创建XML文件来解决问题。
OutputStreamWriter bufferedWriter = new OutputStreamWriter(filePath +
System.getProperty("file.separator") + fileName), "UTF8");
使用上面的代码创建文件后,解决了编码问题。谢谢每一个,把努力放在这里。
答案 1 :(得分:8)
你可以在你的jvm中添加一个jvm参数 -Dfile.encoding = utf-8 。
答案 2 :(得分:3)
我们从消息中可以看出,该文件未正确编码为UTF-8。要弄清楚原因,您需要跟踪文件创建方式的历史记录。它可能(或可能不)有助于研究二进制级别的文件内容以查看实际编码是什么。例如,知道整个文件的编码是否错误,或者它是否只包含错误编码中的一些杂散字符可能很有用。
答案 3 :(得分:2)
非常简单的解决方案:
--git-dir
答案 4 :(得分:0)
我认为你的解析器需要一个以UTF-8编码的字节,并以不同的编码接收它。检查文件的编码。
可能的解决方案可能是将文件转换为UTF-8。
如果你有一个unix系统,你可以使用这个工具
iconv -f original_charset -t utf-8 your_file > new_file
答案 5 :(得分:0)
这是基于操作系统的开始文档字符。您应该使用一些字节查看器并从文档中删除它。 您可以尝试使用unix2dos之类的内容来转换控制字符。