应用错误收集

改善Azure表存储查询性能的建议

时间：2018-06-27 02:13:54

标签： azure-storage azure-table-storage azure-tablequery

Azure表存储中有一个表，由于它是新实现的，因此目前有50,000个项目。

PartitionKey ：字符串形式的DateTime值
RowKey：以字符串形式的数字值

我们使用TableQuery生成过滤条件。 PartitionKey筛选器类似于：PartitionKey ge '201801240000000000' && "PartitionKey lt '201806220000000000'"

不幸的是，我们不能使用RowKey过滤器，因为我们需要两个日期之间的数据。

要获取大约一个月的数据，大约需要5秒钟。而要获取大约3个月的时间，则需要花费更多的时间。

尽管我们已经制定了缓存策略，但是第一次获取数据需要很长时间。就像数据过滤器在日期上更改一样，需要很长时间。

任何改善性能的建议都会受到赞赏。

2 个答案:

答案 0 :(得分：1)

据我从您的帖子中可以看到，最大的问题是您的查询跨越一个查询中的多个分区。这对于性能而言不是最佳的。根据以下列表，您位于 分区扫描 和 表扫描 之间，因为您是指定分区键，但是您正在使用多个。

点查询 是使用效率最高的查询，建议用于大量查询或要求最低延迟的查询。通过指定PartitionKey和RowKey值，这样的查询可以使用索引非常有效地定位单个实体。例如：$ filter =（PartitionKey eq'Sales'）和（RowKey eq'2'）

第二好的是 Range Query （范围查询），该查询使用PartitionKey并对一系列RowKey值进行过滤以返回多个实体。 PartitionKey值标识特定的分区，而RowKey值标识该分区中实体的子集。例如：$ filter = PartitionKey eq'Sales'和RowKey ge'S'和RowKey lt'T'

第三好是 分区扫描 ，该分区使用PartitionKey并对另一个非键属性进行筛选，并且可能返回多个实体。 PartitionKey值标识一个特定的分区，而属性值则为该分区中实体的子集选择。例如：$ filter = PartitionKey eq'Sales'和LastName eq'Smith'

表扫描 不包含PartitionKey，并且效率很低，因为它会依次搜索组成表的所有分区以查找任何匹配的实体。无论过滤器是否使用RowKey，它都会执行表扫描。例如：$ filter = LastName eq'Jones'

返回多个实体的查询将返回它们，并按PartitionKey和RowKey的顺序排序。为了避免在客户端中重新使用实体，请选择定义最常见排序顺序的RowKey。