当一行中有太多列时,Lumenworks CSV解析器是否会出错?

时间:2014-05-19 15:38:43

标签: c# csv lumenworks

我正在使用Lumenworks.Framework.IO.Csv.CsvReader来读取Csv文件,并希望检测格式错误的文件。如果一行的列数少于标题,则会抛出LumenWorks.Framework.IO.Csv.MissingFieldCsvException。但是,如果一行的列数多于标题,那么它在解析时只会截断该行。有没有我可以设置的属性让它扔?或者另一种高效,易用且会检测到这个问题的CSV解析器?

我的测试文件看起来像

Field 1,Field 2,Field 3,Field 4
This,data,looks,ok
But,this,has,too,many,fields

我的集成测试(NUnit)看起来像

[Test, ExpectedException(typeof(MalformedCsvException))]
public void Row_cannot_have_more_fields_than_the_header()
{
    using (var stream = File.OpenText("MoreColumnsThanHeader.csv"))
        new CsvParser().ReadCsv(stream);
}

和我的代码来读取数据

public DataSubmission ReadCsv(StreamReader streamReader)
{
    var data = new DataSubmission();
    using (var reader = new CsvReader(streamReader, true))
    {
        var items = new List<Row>();
        var fieldCount = reader.FieldCount; //this is 4 in the test
        var headers = reader.GetFieldHeaders();
        while (reader.ReadNextRecord()) //reader has a size 4 array for the 6 item row
            items.Add(ReadRow(fieldCount, headers, reader));
        data.Items = items;
    }
    return data;
}

private static Row ReadRow(int fieldCount, IList<string> headers, CsvReader reader)
{
    var item = new Row();
    var fields = new List<Field>();
    for (var index = 0; index < fieldCount; index++)
        fields.Add(ReadField(headers, reader, index));
    item.Fields = fields;
    return item;
}

private static Field ReadField(IList<string> headers, CsvReader reader, int index)
{
    return new Field {FieldName = headers[index], FieldValue = NullifyEmptyString(reader, index)};
}

private static string NullifyEmptyString(CsvReader reader, int index)
{
    return string.IsNullOrWhiteSpace(reader[index]) ? null : reader[index];
}

编辑:自创建此问题以来,我已将CSV解析器更改为使用Microsoft.VisualBasic.FileIO.TextFieldParser。它易于使用,即使对于大文件也能很好地运行,并且比Lumenworks产品更强大。在处理带引号的字符串中的换行符时,我遇到了Lumenworks解析器的问题。 Microsoft解析器处理得很好。

3 个答案:

答案 0 :(得分:1)

尝试使用Mike Stall的DataTable csv阅读器(nuget csvtools)。

如果在Read DataTable.New中的任何allowMismatch = false方法设置了{{1}},那么如果给定行中的列数不等于预期,它将throw an exception列数。

答案 1 :(得分:0)

我采用的方法是使用File.ReadAllLines(),然后分别为每一行旋转一个CsvReader,并将列数与标题行的列数进行比较。如果有任何带有额外逗号的记录,则列数将更高。像这样:

var rawRecords = File.ReadAllLines(dataFileName);
foreach (string rawRecord in rawRecords)
{
    using (CsvReader csvRawRecord = new CsvReader(new StringReader(rawRecord), false))
    {
        if (csvRawRecord.FieldCount != fileColumnCount)
        {
            return false;
        }
    }
}

答案 2 :(得分:-1)

在ReadRow中获取FieldCount,并根据标题行中传入的fieldCount进行检查。如果它更大,那么抛出异常。