跳过格式错误的csv行

时间:2015-09-24 02:09:39

标签: java csv jackson jackson-modules

我一直在尝试阅读csv并将字段添加到数据结构中。但是,其中一行没有正确形成,我知道这一点。我只想跳过这一行继续前行。但是,即使我正在捕捉异常,它仍然打破了循环。知道我在这里缺少什么吗?

我的csv:

"id","name","email"
121212,"Steve","steve@example.com"
121212,"Steve","steve2@example.com",,
121212,"Steve","steve@example.com"

我的代码:

import com.fasterxml.jackson.databind.MappingIterator;
import com.fasterxml.jackson.dataformat.csv.CsvMapper;
import com.fasterxml.jackson.dataformat.csv.CsvSchema;

public static void main(String[] args) throws Exception{
    Path path = Paths.get("list2.csv");
    CsvMapper mapper = new CsvMapper();
    CsvSchema schema = CsvSchema.emptySchema().withHeader();
    MappingIterator<Object> it = mapper.reader(Object.class)
            .with(schema)
            .readValues(path.toFile());

    try{
        while(it.hasNext()){
            Object row;
            try{
                row = it.nextValue();
            } catch (IOException e){
                e.printStackTrace();
                continue;
            }
        }
    } catch (ArrayIndexOutOfBoundsException e){
        e.printStackTrace();
    }

}

例外:

com.fasterxml.jackson.core.JsonParseException: Too many entries: expected at most 3 (value #3 (0 chars) "")
 at [Source: java.io.InputStreamReader@12b3519c; line: 3, column: 38]
    at com.fasterxml.jackson.core.JsonParser._constructError(JsonParser.java:1486)
    at com.fasterxml.jackson.core.base.ParserMinimalBase._reportError(ParserMinimalBase.java:518)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntryExpectEOL(CsvParser.java:601)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntry(CsvParser.java:587)
    at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:474)
    at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.mapObject(UntypedObjectDeserializer.java:592)
    at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.deserialize(UntypedObjectDeserializer.java:440)
    at com.fasterxml.jackson.databind.MappingIterator.nextValue(MappingIterator.java:188)
    at CSVTest.main(CSVTest.java:24)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)
java.lang.ArrayIndexOutOfBoundsException: 3
    at com.fasterxml.jackson.dataformat.csv.CsvSchema.column(CsvSchema.java:941)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNamedValue(CsvParser.java:614)
    at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:476)
    at com.fasterxml.jackson.databind.MappingIterator.hasNextValue(MappingIterator.java:158)
    at CSVTest.main(CSVTest.java:21)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)

4 个答案:

答案 0 :(得分:2)

您的CSV不一定是格式错误的,事实上,拥有不同列数的行很常见。

univocity-parsers毫无困难地处理此问题。

最简单的方法是:

BeanListProcessor<TestBean> rowProcessor = new BeanListProcessor<TestBean>(TestBean.class);

CsvParserSettings parserSettings = new CsvParserSettings();
parserSettings.setRowProcessor(rowProcessor);
parserSettings.setHeaderExtractionEnabled(true);

CsvParser parser = new CsvParser(parserSettings);
parser.parse(new FileReader(Paths.get("list2.csv").toFile());

// The BeanListProcessor provides a list of objects extracted from the input.
List<TestBean> beans = rowProcessor.getBeans();

如果要丢弃使用列数不一致的行构建的元素,请覆盖beanProcessed方法并使用ParsingContext对象分析数据并决定是保留还是删除行

披露:我是这个图书馆的作者。它是开源和免费的(Apache V2.0许可证)。

答案 1 :(得分:2)

使用Jackson 2.6处理readValues()已经过改进,试图从处理错误中恢复,这样在很多情况下你可以再试一次,以读取以下有效行。因此,请务必至少使用版本2.6.2

早期版本也没有恢复,通常会使其余内容无法处理;这可能就是你的情况。

另一种可能性,假设您的问题不是无效的CSV,而是一个不能作为POJO可映射的(至少是定义POJO的方式),是将内容读作String[]的序列,并处理手动映射。杰克逊的CSV解析器本身并不介意任何数量的列,更高级别的数据绑定就像找到它无法识别的“额外”内容。

答案 2 :(得分:1)

com.fasterxml.jackson.core.JsonParseExceptionIOException,因此应该在try-catch块中捕获异常。事实上,它没有被抓住,这让我相信它发生在hasNext()方法中。这是一个常见的模式:为了知道是否还有另一个,你实际上必须尝试阅读下一个。

答案 3 :(得分:0)

我无法确定,因为省略了一些堆栈跟踪,但是:

  • 如果ArrayIndexOutOfBoundsException是抛出的异常(而不是"cause"),那么原因是你在循环之外捕获它。
  • 如果异常是IOException的(子类),那么正如Chris Gerken所写,它可能会被it.hasNext()抛出,在这种情况下你根本就没有抓住它,所以你的程序将会退出。

堆栈跟踪的其余部分将指示这些问题中的哪一个或其他原因完全是问题。

基于完整输出和堆栈跟踪进行更新:

在CSVTest.java的第24行,您调用.nextValue()。在调用此方法的实现中,抛出JsonParseException。由于这是IOException的子类,因此您的catch块会捕获它,打印堆栈跟踪并继续循环。到目前为止一切都很好。

com.fasterxml.jackson.core.JsonParseException: Too many entries: expected at most 3 (value #3 (0 chars) "")
 at [Source: java.io.InputStreamReader@12b3519c; line: 3, column: 38]
   at com.fasterxml.jackson.core.JsonParser._constructError(JsonParser.java:1486)
   at com.fasterxml.jackson.core.base.ParserMinimalBase._reportError(ParserMinimalBase.java:518)
   at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntryExpectEOL(CsvParser.java:601)
   at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntry(CsvParser.java:587)
   at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:474)
   at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.mapObject(UntypedObjectDeserializer.java:592)
   at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.deserialize(UntypedObjectDeserializer.java:440)
   at com.fasterxml.jackson.databind.MappingIterator.nextValue(MappingIterator.java:188)
   at CSVTest.main(CSVTest.java:24)

之后,在CSVTest.java的第21行,您调用.hasNextValue()。在此方法的实现中,抛出ArrayIndexOutOfBoundsException。你抓住它,并打印堆栈跟踪。但是你的catch块在你的循环之外,所以当你捕获异常时循环已经退出。

java.lang.ArrayIndexOutOfBoundsException: 3
    at com.fasterxml.jackson.dataformat.csv.CsvSchema.column(CsvSchema.java:941)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNamedValue(CsvParser.java:614)
    at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:476)
    at com.fasterxml.jackson.databind.MappingIterator.hasNextValue(MappingIterator.java:158)
    at CSVTest.main(CSVTest.java:21)

如果你真的想在这里继续循环,那么你需要在循环中移动try-catch构造。也许是这样的:

while (true)
    {
    try
        {
        if (!it.hasNextValue())
            { break; }
        }
    catch (final ArrayIndexOutOfBoundsException err)
        {
        err.printStackTrace();
        continue;
        }

    Object row;
    try
        { row = it.nextValue(); }
    catch (final IOException err)
        {
        err.printStackTrace();
        continue;
        }
    }

然而 ,此代码是无限循环。当hasNextValue()抛出ArrayIndexOutOfBoundsException时,状态没有改变,循环永远不会结束。我展示了这一点,以显示在循环内移动catch块的原理,而不是一个可行的解决方案。

您在引用jackson-dataformat-csv中错误处理讨论的问题中添加了注释。在跳过格式错误的行时,您似乎遇到了库中的限制(或错误)。