Azure存储表[Python] - 批处理不会失败

时间:2014-04-10 12:14:32

标签: python-2.7 azure transactions etag azure-table-storage

我目前正在开发一个Python(2.7)应用程序,它通过Azure Python包使用Azure表存储服务。就我从Azure的REST API中读到的那样,批处理操作创建了原子事务。因此,如果其中一个操作失败,则整个批处理失败并且不执行任何操作。

我遇到的问题如下: 下面的方法通过"行"参数列表。有些人设置了 ETag (从之前的查询中提供)。

如果设置了 ETag ,请尝试合并操作。否则,尝试插入操作。由于有多个进程可能会修改同一个实体,因此需要通过" if_match "来解决并发问题。 merge_entity函数的参数。如果合并/插入操作是单独的操作(不包括在批处理中),则系统按预期工作,如果ETag不匹配则引发异常。 不幸的是,如果这些包含在" begin_batch" /" commit_batch" 来电。即使 ETag不匹配,实体也会合并(错误地)。

我在下面提供了代码和使用的测试用例。还有几次手动测试并得出相同的结论。

我不确定如何解决这个问题。我做错了什么或是Python包的问题?

使用的代码如下:

def persist_entities(self, rows):
    success = True
    self._service.begin_batch()        #If commented, works as expected (fails)
    for row in rows:
        print row
        etag = row.pop("ETag")
        if not etag:
            self._service.insert_entity(self._name,
                                        entity=row)
        else:
            print "Merging " + etag
            self._service.merge_entity(self._name,
                                       row["PartitionKey"],
                                       row["RowKey"],
                                       row, if_match=etag)
    try:            #Also tried with the try at the begining of the code
        self._service.commit_batch()       #If commented, works as expected (fails)
    except WindowsAzureError:
        print "Failed to merge"
        self._service.cancel_batch()
        success = False
    return success

使用的测试用例:

def test_fail_update(self):
        service = self._conn.get_service()
        partition, new_rows = self._generate_data()   #Partition key and list of dicts
        success = self._wrapper.persist_entities(new_rows)   #Inserts fresh new entity
        ok_(success)                                           #Insert succeeds
        rows = self._wrapper.get_entities_by_row(partition) #Retreives inserted data for ETag
        eq_(len(rows), 1)
        for index in rows:
            row = rows[index]
            data = new_rows[0]
            data["Count"] = 155                       #Same data, different value
            data["ETag"] = "random_etag"              #Change ETag to a random string
            val = self._wrapper.persist_entities([data])              #Try to merge
            ok_(not val)            #val = True for merge success, False for merge fail.
            #It's always True when operations in batch. False if operations out of batch 
            rows1 = self._wrapper.get_entities_by_row(partition)
            eq_(len(rows1), 1)
            eq_(rows1[index].Count, 123)
            break

    def _generate_data(self):
        date = datetime.now().isoformat()
        partition = "{0}_{1}_{2}".format("1",
                                         Stats.RESOLUTION_DAY, date)
        data = {
            "PartitionKey": partition,
            "RowKey": "viewitem",
            "Count": 123,
            "ETag": None
        }
        return partition, [data]

2 个答案:

答案 0 :(得分:1)

这是SDK中的一个错误(v0.8及更早版本)。我创建了一个问题并检查了修复程序。它将成为下一个版本的一部分。你可以从git repo pip install来测试修复。 https://github.com/Azure/azure-sdk-for-python/issues/149

答案 1 :(得分:1)

Azure 表存储在预览版中有一个新的 Python 库,可通过 pip 安装。要安装使用以下 pip 命令

pip install azure-data-tables

您执行批处理的方式以及批处理在最新库中的工作方式存在一些差异。

  1. 只能在包含相同分区键的实体上提交批处理操作。
  2. 一个批处理操作不能在同一个行键上包含多个操作。
  3. 只有在整个批次成功时才会提交批次,如果 send_batch 引发错误,则不会进行任何更新。

在此声明中,创建和更新操作与非批处理创建和更新操作相同。例如:

from azure.data.tables import TableClient, UpdateMode
table_client = TableClient.from_connection_string(conn_str, table_name="myTable")

batch = table_client.create_batch()
batch.create_entity(entity1)
batch.update_entity(entity2, etag=etag, match_condition=UpdateMode.MERGE)
batch.delete_entity(entity['PartitionKey'], entity['RowKey'])

try:
    table_client.send_batch(batch)
except BatchErrorException as e:
    print("There was an error with the batch")
    print(e)

有关新库的更多示例,请查看存储库上的 samples 页面。

(仅供参考,我是 Azure SDK for Python 团队的 Microsoft 员工)