在Azure存储表中批量插入

时间:2018-10-11 06:21:48

标签: c# azure azure-storage azure-table-storage azure-tablequery

我是刚接触天蓝色存储表的人。我试图批量插入我的实体,但是我发现您无法执行具有不同分区键的批量操作。 有什么办法可以做到,我想在表格中插入大约10,000-20,000个文件详细信息。 到目前为止,这是我尝试过的:-

public class Manifest:TableEntity
{
    private string name;
    private string extension;
    private string filePath;
    private string relativePath;
    private string mD5HashCode;
    private string lastModifiedDate;

    public void AssignRowKey()
    {
        this.RowKey = relativePath.ToString();
    }
    public void AssignPartitionKey()
    {
        this.PartitionKey = mD5HashCode;
    }
    public string Name { get { return name; } set { name = value; } }
    public string Extension { get { return extension; } set { extension = value; } }
    public string FilePath { get { return filePath; } set { filePath = value; } }
    public string RelativePath { get { return relativePath; } set { relativePath = value; } }
    public string MD5HashCode { get { return mD5HashCode; } set { mD5HashCode = value; } }
    public string LastModifiedDate { get { return lastModifiedDate; } set { lastModifiedDate = value; } }

}

我的方法在不同的类中

  static async Task BatchInsert(CloudTable table, IEnumerable<FileDetails> files)
    {
        int rowOffset = 0;

        var tasks = new List<Task>();

        while (rowOffset < files.Count())
        {
            // next batch
            var rows = files.Skip(rowOffset).Take(100).ToList();

            rowOffset += rows.Count;                

            var task = Task.Factory.StartNew(() =>
            {                  

                var batch = new TableBatchOperation();

                foreach (var row in rows)
                {
                    Manifest manifestEntity = new Manifest
                    {
                        Name = row.Name,
                        Extension = row.Extension,
                        FilePath = row.FilePath,
                        RelativePath = row.RelativePath.Replace('\\', '+'),
                        MD5HashCode = row.Md5HashCode,
                        LastModifiedDate = row.LastModifiedDate.ToString()
                    };
                    manifestEntity.AssignPartitionKey();                        
                    manifestEntity.AssignRowKey();
                    batch.InsertOrReplace(manifestEntity);
                }

                // submit
                table.ExecuteBatch(batch);

            });

            tasks.Add(task);
        }

         await Task.WhenAll(tasks);
    }

2 个答案:

答案 0 :(得分:2)

如果要使用批处理操作,则批处理中的实体必须具有相同的PartitionKey 。不幸的是,别无选择,只能将它们保存在您的情况下。

分区键甚至存在的原因是Azure可以跨计算机分布数据,而分区之间没有协调。设计该系统时,不能在同一事务或操作中使用不同的分区。

您可以对此issue进行投票,以推进该功能的实现。

答案 1 :(得分:0)

相对而言,无法使用批处理操作使用相同的分区键插入多个实体。

批处理操作的一些限制是

  • 单个批处理操作中的所有实体必须具有相同的分区 键。
  • 一个批处理操作只能包含100个实体。

或者,您可以使用“ TableOperation.Insert()”插入实体,该实体允许您使用相同的分区键插入实体。