使用未转义的多行字段解析分隔文件

时间:2013-03-26 08:28:05

标签: c#

我有一个CSV文件,其分隔符为“|”把田地分开。

我使用下面的代码来读取文件并将其放入List

 var reader = new StreamReader(File.OpenRead(openFileDialog1.FileName));
 List<string> list1 = new List<string>();
 List<string> list2 = new List<string>();
 List<string> list3 = new List<string>();
 List<string> list4 = new List<string>();

 while (!reader.EndOfStream)
 {
     var line = reader.ReadLine();
     var values = line.Split('|');

     list1.Add(values[0]);
     list2.Add(values[1]);
     list3.Add(values[2]);
     list4.Add(values[3]);
 }

然后我要将它放入DataSet

DataSet ds = new DataSet();
ds.Tables.Add("barcode");

for (int i = 1; i < list1.Count; i++)
{
    ds.Tables[0].Rows.Add(list1[i], list2[i], list3[i], list4[i]);
}

如果数据是这样的话,这一切都很好

373|A0000006-04|EACH|2600003347225  
373|A0000006-04|EACH|9556076004684  
373|A0000006-04|EACH|9556076006374  
373|A0000006-04|PK12|2600003347232  
373|A0000006-04|PK12|9556076004691  

但是,有些数据可能看起来像这样

373|A0000029-01|PK12|1899886
6604250
373|A0000029-01|PK12|2652357563394
373|A0000030-01|EACH|2600001
539189
373|A0000030-01|EACH|8998866604284

如您所见,一些数据使用了2行。有什么方法可以将它们作为同一行而不是2行不同来读取它们?或者我是否必须使用逗号或分号等分隔符来将它们标识为同一行?

4 个答案:

答案 0 :(得分:3)

使用A Fast CSV Reader等库,它支持您需要的所有功能。

答案 1 :(得分:2)

List(of T)也可以通过索引访问,你可以在你的循环中添加一个lineCounter 如果该行在拆分后仅由一个部分组成,则将该内容添加到前一个列表元素中。 (至少第一行应该是4个元素)

lineCounter = 0;
while (!reader.EndOfStream)
{
     var line = reader.ReadLine();
     var values = line.Split('|');

     if(values.Length == 1)
     {
        list4[lineCounter-1] += values[0];
     }
     else
     {
          list1.Add(values[0]);
          list2.Add(values[1]);
          list3.Add(values[2]);
          list4.Add(values[3]);
          lineCounter++;
     }

}

我已经使用OP提供的样本数据进行了测试,似乎效果很好。

答案 2 :(得分:0)

根据CSV文件规范,每条记录应位于单独的行中(您可以在此处找到CSV文件规范http://www.ietf.org/rfc/rfc4180.txt)。 因此,在您的情况下,您确实需要进行某种解决方法并使用其他分隔符来标记换行符。

答案 3 :(得分:0)

我使用FileHelpers Library直接映射到强类型数组。如果您正在使用正式的CSV,它将适合您。

如果它只是没有正式规范的分隔数据,您可能需要一些其他解决方案。