使用c#将CSV数据(300万个数据)移动到DataTable时出现内存不足异常

时间:2017-11-03 06:04:12

标签: c# csv datatable sqlbulkcopy

我有300万行和40列CSV文件。我想使用SqlBulkCopy概念将CSV数据移动到SQL服务器中。为此,我使用CSV阅读器将每个列和行移动到数据表中。使用while循环在数据表中插入行时,我得到了内存异常。 注意:438184(我的以下样本的值)记录已成功插入。之后我得到了记忆异常。

SqlConnection con = new SqlConnection(connectionString);
        con.Open();
        SqlCommand SqlCmd = new SqlCommand();
        SqlCmd.CommandTimeout = 0;
        SqlCmd.Connection = con;
SqlTransaction transaction = con.BeginTransaction();
        var fileStream = new FileStream(path, FileMode.Open, FileAccess.Read, FileShare.ReadWrite);
        StreamReader streamReader = new StreamReader(fileStream);
        CsvReader reader = new CsvReader(streamReader);
        DataTable table = new DataTable();
        reader.ReadHeaderRecord();
        foreach (var c in reader.HeaderRecord)
        {
            table.Columns.Add(c);
        }
        table.Rows.Clear();

        int i = 0;

        while (reader.HasMoreRecords)
        {

          DataRecord record = reader.ReadDataRecord();
          table.Rows.Add(record[0], record[1], record[2], record[3], record[4], record[5], record[6], record[7], record[8], record[9], record[10], record[11], record[12], record[13], record[14], record[15], record[16], record[17], record[18], record[19], record[20], record[21], record[22], record[23], record[24], record[25], record[26], record[27], record[28], record[29], record[30], record[31], record[32], record[33], record[34], record[35], record[36], record[37], record[38], record[39]);              
            i++;
        }
        SqlBulkCopy copy = new SqlBulkCopy(con, SqlBulkCopyOptions.KeepIdentity, transaction);
        copy.DestinationTableName = "SampleCSV";
        copy.WriteToServer(table);
        transaction.Commit();
            con.Close();

有谁能建议我如何解决这个问题?

3 个答案:

答案 0 :(得分:0)

您可以指定批量大小

查看SqlBulkCopy.BatchSize属性的更多详细信息

https://msdn.microsoft.com/en-us/library/system.data.sqlclient.sqlbulkcopy.batchsize(v=vs.110).aspx

或者,如果您的目标表架构已修复,那么您可以使用SSIS包。

答案 1 :(得分:0)

   SqlBulkCopy copy = new SqlBulkCopy(con, SqlBulkCopyOptions.KeepIdentity, transaction);
   //you can define any Banch of Data insert
   copy.BatchSize(10000);
   copy.DestinationTableName = "SampleCSV";
   copy.WriteToServer(table);
   transaction.Commit();
   con.Close();

答案 2 :(得分:0)

如果您收到内存异常,则意味着您无法一次加载DataTable中的所有行。您需要在每X行执行一次SqlBulkCopy,并在处理更多内容之前清除DataTable

例如,以下代码将在DataTable中加载的每100,000行执行SqlBulkCopy,然后在加载更多行之前清除所有行。

int i = 0;

while (reader.HasMoreRecords)
{
    // INSERT rows every x
    if(i % 100000 == 0)
    {
        ExecuteBulkCopy(conn, transaction, table);
        table.Rows.Clear();
    }

    DataRecord record = reader.ReadDataRecord();
    table.Rows.Add(record[0], record[1], record[2], record[3], record[4], record[5], record[6], record[7], record[8], record[9], record[10], record[11], record[12], record[13], record[14], record[15], record[16], record[17], record[18], record[19], record[20], record[21], record[22], record[23], record[24], record[25], record[26], record[27], record[28], record[29], record[30], record[31], record[32], record[33], record[34], record[35], record[36], record[37], record[38], record[39]);              
    i++;
}
// INSERT remaining row
if(table.Rows.Count > 0)
{
    ExecuteBulkCopy(conn, transaction, table);
}

public void ExecuteBulkCopy(SqlConnection con, SqlTransaction transaction, DataTable table)
{
    SqlBulkCopy copy = new SqlBulkCopy(con, SqlBulkCopyOptions.KeepIdentity, transaction);
    copy.DestinationTableName = "SampleCSV";
    copy.WriteToServer(table);
    transaction.Commit();
}

编辑:回答子问题

  

如果我使用批量插入或任何其他插件,我可以减少这段时间吗?

SqlBulkCopy是最快的插入方式。甚至我的库.NET Bulk Operations也会使用SqlBulkCopy。

300万数据的20分钟非常慢,但根据你的表(char列,触发器,索引等)它也可能是正常的。

以下两种要添加的配置对性能影响最大。

使用BatchSize

以示例5000为例 与非常大的批次相比,使用较小批次多次插入通常会更快。

使用TableLock选项

new SqlBulkCopy(connectionString, SqlBulkCopyOptions.TableLock)) 通过锁定表,SqlBulkCopy将执行得更快。