Question

使用Apache Commons CSV库解析CSV文件时出现以下错误。

Exception in thread "main" java.io.IOException: (line 2) invalid char between encapsulated token and delimiter

at org.apache.commons.csv.Lexer.parseEncapsulatedToken(Lexer.java:275)
at org.apache.commons.csv.Lexer.nextToken(Lexer.java:152)
at org.apache.commons.csv.CSVParser.nextRecord(CSVParser.java:450)
at org.apache.commons.csv.CSVParser.getRecords(CSVParser.java:327)
at parse.csv.file.CSVFileParser.main(CSVFileParser.java:29)

这个错误的含义是什么？

Answer 1

当我们在数据中嵌入引号时，我们遇到了这个问题。

0,"020"1,"BS:5252525  ORDER:99999"4

已应用的解决方案为CSVFormat csvFileFormat = CSVFormat.DEFAULT.withQuote(null);

@Cuga小费帮助我们解决了问题。谢谢@Cuga

完整代码

    public static void main(String[] args) throws IOException {
    FileReader fileReader = null;
    CSVFormat csvFileFormat = CSVFormat.DEFAULT.withQuote(null);
    String fileName = "test.csv";

    fileReader = new FileReader(fileName);
    CSVParser csvFileParser = new CSVParser(fileReader, csvFileFormat);

    List<CSVRecord> csvRecords = csvFileParser.getRecords();

    for (CSVRecord csvRecord : csvRecords) {
        System.out.println(csvRecord);
    }
    csvFileParser.close();
}

结果是

CSVRecord [comment=null, mapping=null, recordNumber=1, values=[0, "020"1, "BS:5252525  ORDER:99999"4]]

Answer 2

CSV文件中的该行包含一个单元格与行尾，文件结尾或下一个单元格之间的无效字符。造成这种情况的一个常见原因是无法逃避封装字符（用于＆＃34;包装＆＃34;每个单元格的字符，因此CSV知道单元格（标记）的开始和结束位置。

Answer 3

我找到了问题的解决方案。我的一个CSV文件具有如下属性： ＆＃34;属性与嵌套＆＃34;引用＆＃34; ＆＃34;

由于属性中的嵌套引号，解析器失败。

为避免上述问题，请按如下方式转义嵌套引号： ＆＃34;属性与嵌套＆＃34;＆＃34;＆＃34;＆＃34;引用＆＃34;＆＃34;＆＃34;＆＃34; ＆＃34;

这是解决问题的唯一方法。

Answer 4

我们在同样的错误中遇到了这个错误，数据包含其他未引用输入中的引号。即：

some cell|this "cell" caused issues|other data

很难找到，但在Apache's docs中，他们提到withQuote()方法，可以将null作为值。

我们收到了完全相同的错误消息，并且（谢天谢地）最终为我们解决了问题。

Answer 5

当我忘记致电.withNullString("")上的CSVFormat时遇到了这个问题。基本上，此例外总是在以下情况下发生：

您的报价符号错误
您的空字符串表示错误
您的列分隔符char错误

确保您知道格式的详细信息。另外，某些程序使用前导字节顺序标记（例如，Excel使用\uFEFF）来表示文件的编码。这也会使您的解析器崩溃。

Apache Commons CSV库中封装的标记和分隔符之间的无效字符

5 个答案: