我正在尝试使用SAXparser解析XML。有问题的文件大约4.5 gigs。作业总是以相同的异常失败,但在XML中的不同位置。
org.xml.sax.SAXParseException; lineNumber:15709953; columnNumber:3; 4字节UTF-8序列的字节2无效。
在这种情况下,它在15.7密耳线附近失败。在随后的运行中,它在第7密耳,80密耳,32密耳等处出现故障。我正在从s3的zip中流式传输(尽管我尝试从本地流式传输具有相同行为的文件)。它失败的随机行让我怀疑流有什么东西而不是文件本身。