如果包含双标记,请不要拆分字符串

时间:2015-06-04 10:20:10

标签: c# datatable

我有一个文本delimeted文件需要转换为datatable。鉴于文本是这样的:

Name,Contact,Email,Date Of Birth,Address
JOHN,01212121,hehe@yahoo.com,1/12/1987,"mawar rd, shah alam, selangor"
JACKSON,01223323,haha@yahoo.com,1/4/1967,"neelofa rd, sepang, selangor"
DAVID,0151212,hoho@yahoo.com,3/5/1956,"nora danish rd, klang, selangor"

这就是我在C#中读取文本文件的方式

DataTable table = new DataTable();                

                    using (StreamReader sr = new StreamReader(path))
                    {
                        #region Text to csv
                        while (!sr.EndOfStream)
                        {
                            string[] line = sr.ReadLine().Split(',');
                            //table.Rows.Add(parts[0], parts[1], parts[2], parts[3], parts[4], parts[5]);

                            if (IsRowHeader)//Is user want to read first row as the header
                            {
                                foreach (string column in line)
                                {
                                    table.Columns.Add(column);
                                }

                                totalColumn = line.Count();

                                IsRowHeader = false;
                            }
                            else
                            {
                                if (totalColumn == 0)
                                {
                                    totalColumn = line.Count();

                                    for (int j = 0; j < totalColumn; j++)
                                    {
                                        table.Columns.Add();
                                    }

                                }

                                // create a DataRow using .NewRow()
                                DataRow row = table.NewRow();

                                // iterate over all columns to fill the row
                                for (int i = 0; i < line.Count(); i++)
                                {
                                    row[i] = line[i];
                                }

                                // add the current row to the DataTable
                                table.Rows.Add(row);
                            }          
                        }

该列是动态的,用户可以添加或删除文本文件中的列。所以我需要检查有多少列并设置为datatable,之后我将读取每一行,将值设置为datarow然后将行添加到表。

如果我没有删除双标记内的分号,则会显示错误&#34;找不到第5列&#34;因为在第一行只有4列(从0开始)。

处理文本分隔的最佳方法是什么?

3 个答案:

答案 0 :(得分:3)

不要尝试重新发明CSV解析轮。使用.NET内置的解析器:Microsoft.VisualBasic.FileIO.TextFieldParser

请参阅https://stackoverflow.com/a/3508572/7122

答案 1 :(得分:0)

不,不,不要。不要尝试编写自己的CSV解析器 - 没有理由这样做。

This article解释了这个问题并建议使用FileHelpers - 这还不错。

还有Lumenworks reader更简单,同样有用。

最后,显然您只需使用DataSet即可链接到您的CSV as described here。我没有试过这个,但看起来很有趣,如果可能已经过时了。

答案 2 :(得分:-1)

我通常会这样:

const char separator = ',';
using (var reader = new StreamReader("C:\\sample.txt"))
{

    var fields = (reader.ReadLine() ?? "").Split(separator);

    // Dynamically add the columns
    var table  = new DataTable();
    table.Columns.AddRange(fields.Select(field => new DataColumn(field)).ToArray());

    while (reader.Peek() >= 0)
    {
        var line = reader.ReadLine() ?? "";

        // Split the values considering the quoted field values
        var values = Regex.Split(line, ",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)")
            .Select((value, current) => value.Trim())
            .ToArray()
            ;

        // Add those values directly
        table.Rows.Add(values);
    }

    // Demonstrate the results
    foreach (DataRow row in table.Rows)
    {
        Console.WriteLine();
        foreach (DataColumn col in table.Columns)
        {
            Console.WriteLine("{0}={1}", col.ColumnName, row[col]);
        }
    }
}