使用逗号分析数据中的CSV

时间:2011-09-19 18:26:25

标签: c# .net csv

  

可能重复:
  Dealing with commas in a CSV file

我自己编写了一个CSV解析器,它可以正常运行,直到我点击此记录: B002VECGTG,B002VECGTG,HAS_17131_spaceshooter,"4,426",0.04%,"4,832",0.03%,0%,1,0.02%,$20.47 ,1 逃脱,在“4,426”和“4,426”制动我的解析器。

这就是我用来解析文本行的内容:

            char[] comma = { ',' };
            string[] words = line.Split(comma);

如何阻止程序崩溃?

3 个答案:

答案 0 :(得分:11)

你不能只用逗号分开。要为该情况实现正确的解析器,您需要自己遍历字符串,跟踪您是否在引号内。如果你在一个带引号的字符串中,你应该继续,直到你找到另一个引用。

IEnumerable<string> LineSplitter(string line)
{
    int fieldStart = 0;
    for(int i = 0; i < line.Length; i++)
    {
        if(line[i] == ',')
        {    
            yield return line.SubString(fieldStart, i - fieldStart);
            fieldStart = i + 1;
        }
        if(line[i] == '"')
            for(i++; line[i] != '"'; i++) {}
    }
}

答案 1 :(得分:5)

我建议使用CSV解析器而不是自己解析。

正确解析CSV有一些细微差别,正如您已经发现的那样。

有许多第三方(其中一些是免费的),甚至一个内置于Visual Basic命名空间 - Microsoft.VisualBasic.FileIO命名空间中的TextFieldParser

答案 2 :(得分:1)

可以使用正则表达式:

List<List<String>> rows = new List<List<String>>();
MatchCollection matches = Regex.Matches(input, @"^(?:(?:\s*""(?<value>[^""]*)""\s*|(?<value>[^,]*)),)*?(?:\s*""(?>value>[^""]*)""\s*|(?<value>[^,]*))$", RegexOptions.Multiline);
foreach(Match row in matches)
{
    List<String> values = new List<String>();
    foreach(Capture value in row.Groups["value"].Captures)
    {
        values.Add(value.Value);
    }
    rows.Add(values);
}

我不建议这是最好的解决方案,但对于小文件(几行),它可能并不太糟糕。