4字节UTF-8序列的无效字节2出现不一致

时间:2017-12-08 18:00:27

标签: java xml utf-8 sax

我正在尝试使用SAXparser解析XML。有问题的文件大约4.5 gigs。作业总是以相同的异常失败,但在XML中的不同位置。

  

org.xml.sax.SAXParseException; lineNumber:15709953; columnNumber:3; 4字节UTF-8序列的字节2无效。

在这种情况下,它在15.7密耳线附近失败。在随后的运行中,它在第7密耳,80密耳,32密耳等处出现故障。我正在从s3的zip中流式传输(尽管我尝试从本地流式传输具有相同行为的文件)。它失败的随机行让我怀疑流有什么东西而不是文件本身。

0 个答案:

没有答案