SQL SERVER - 查询优化'喜欢'导致大多数cpu使用100%

时间:2016-02-08 14:26:15

标签: sql sql-server performance query-optimization cpu-usage

我在数据库产品过滤器中有两个表。

架构:

enter image description here

我创建了一个查询,查找过滤器表中的所有记录,循环显示每条记录,并调用一个为Products表设置类别ID的过程。

过滤表数据如下。

enter image description here

过滤器选择查询如下..

DECLARE @TotalRecords INT, @Start INT, @Limit INT, @CatId INT, @Merchants NVARCHAR(max), @NotMatch NVARCHAR(max), @WillMatch NVARCHAR(max);
SELECT @TotalRecords = COUNT(*) FROM filters;

SET @Limit = 1;
SET @Start = 0;

WHILE(@TotalRecords > 0)
BEGIN       
    SELECT @CatId = category_id, @Merchants = merchant_name, @NotMatch = not_match, @WillMatch = will_match FROM 
    (
        SELECT TOP (@Start + @Limit) *, ROW_NUMBER() OVER (ORDER BY (SELECT 1)) AS rnum 
        FROM filters
    ) a
    WHERE rnum > @Start;

    -- call filter procedure.
    exec procSetProductCategory @CatId = @CatId, @Merchants = @Merchants, @WillMatch = @WillMatch, @NotMatch = @NotMatch;

    SET @Start += 1;
    SET @TotalRecords -= 1;
END

procSetProductCategory 如下..

CREATE PROC [dbo].[procSetProductCategory]
(
    @CatId INT = NULL,
    @Merchants NVARCHAR(max),
    @NotMatch NVARCHAR(max),
    @WillMatch NVARCHAR(max)
)
AS
BEGIN
SET NOCOUNT ON

    declare @query nvarchar(max), @orToken nvarchar(max), @andToken nvarchar(max);
     set @query = 'UPDATE Products SET category_id = '+ convert(nvarchar(20), @CatId) + ' WHERE category_id IS NULL AND merchant_name IN(' + @Merchants + ')';

    if(@WillMatch is not null AND LTRIM(RTRIM(@WillMatch)) != '')
    BEGIN

        set @andToken = '%'' AND product_name LIKE ''%';
        set @WillMatch = REPLACE(@WillMatch, '+', @andToken);

        set @orToken = '%'') OR (product_name LIKE ''%';
        set @query = @query + ' AND ((product_name LIKE '''+ '%' + REPLACE(@WillMatch, ',', @orToken) + '%''))';
    END

    if(@NotMatch is not null AND LTRIM(RTRIM(@NotMatch)) != '')
    BEGIN
        set @andToken = '%'' AND product_name NOT LIKE ''%';
        set @NotMatch = REPLACE(@NotMatch, '+', @andToken);

        set @orToken = '%'') OR (product_name NOT LIKE ''%';
        set @query = @query + ' AND ((product_name NOT LIKE '''+ '%' + REPLACE(@NotMatch, ',', @orToken) + '%''))';
    END

    EXECUTE sp_executesql @query;
END

它生成如下的SQL查询...

Query #1
-------------------------------------------------------------------------------------------------------
UPDATE Products SET category_id = 101 WHERE merchant_name IN('merchant 1','merchant 4','merchant 3') AND 
 (
    (product_name LIKE '%abcd%' AND product_name LIKE '%efhg%')
 ) AND (
    (product_name NOT LIKE '%3258%')
     OR (product_name NOT LIKE '%yxzs%')
)


Query #2
-------------------------------------------------------------------------------------------------------
UPDATE Products SET category_id = 102 WHERE merchant_name IN('merchant 3', 'merchant 4') AND 
(
    (product_name LIKE '%1258%') OR (product_name LIKE '%abcd%')
)

注意这里有一些技巧。

[,]用于区分匹配短语。 匹配字段中的[+]用于带AND条件的两个匹配短语。

这些查询与我需要的相同......

enter image description here

问题是,当我使用500,000个产品运行此查询时,它使用大约100%的CPU。

我们如何优化不会对结果产生影响但可以降低CPU使用率的查询?

2 个答案:

答案 0 :(得分:1)

没有查询计划,很难确定,但我猜这是因为你匹配'%something%',这意味着查询必须检查每一行。

这总是很慢,而且你无法做很多事情来帮助建立索引。

如果您正在进行文本比较,则可以使用SQL Server的full text matching功能获得更好的性能。

答案 1 :(得分:1)

首先,正如已经指出的那样:这里的逻辑确实存在问题。也就是说,假设你坚持使用它,你可能想尝试一些事情。 我的第一个问题是:这件事有多长时间了?你不应该担心它需要100%的CPU;问题是需要多长时间才能完成。

查询1:

您似乎正在filters表上创建一个循环,逐个获取每一行。

  • SQL没有经过优化以进行逐行操作;你真的应该考虑将逻辑改为基于集合的东西
  • 如果您确实想要逐行执行某些操作,请使用CURSOR而非当前方法
    • 首先,您将查看整个表格以计算有多少过滤器
    • 然后,您将浏览整个表格并按SELECT 1
    • 订购记录
    • 从排序列表中选择一个比计数器大rnum的列表

=>这在很多方面都是错误的,实际上是伤害=(

  • 如果按SELECT 1排序/排序,那么它可以第一次以ABCD顺序返回记录,第二次返回BADC;并且这两个答案都是正确的,因为你按常数排序:记录的实际顺序并不重要!
  • 每次进行循环时,服务器必须先对整个表进行排序,然后才能确定哪些rnum值符合大于@start的要求;每一次!
  • 会有许多适合rnum > @start的记录,用于填写记录的返回记录可能是其中任何一个!

要修复'我建议使用以下方法:

DECLARE @TotalRecords INT, 
        @Start INT, 
        @Limit INT, 
        @CatId INT, 
        @Merchants NVARCHAR(max), 
        @NotMatch NVARCHAR(max), 
        @WillMatch NVARCHAR(max);

DECLARE filter_loop CURSOR LOCAL FAST_FORWARD
    FOR SELECT category_id, 
               merchant_name,
               not_match,
               will_match
          FROM filters
         ORDER BY id -- not required but makes debugging easier
OPEN filter_loop 
FETCH NEXT FROM filter_loop INTO @CatId, @Merchants, @NotMatch, @WillMatch
WHILE @@FETCH_STATUS = 0
    BEGIN

        -- call filter procedure.
        exec procSetProductCategory @CatId = @CatId, @Merchants = @Merchants, @WillMatch = @WillMatch, @NotMatch = @NotMatch;

        -- get next filter
        FETCH NEXT FROM filter_loop INTO @CatId, @Merchants, @NotMatch, @WillMatch
    END
CLOSE filter_loop 
DEALLOCATE filter_loop 

QUERY2:

乍一看,我对存储过程本身几乎无能为力。有一些动态的sql字符串构建可能会稍微优化但我非常怀疑它会产生很大的影响。因为它现在是相当可读的,所以我保持原样。 生成的查询确实看起来像这样:

UPDATE Products 
   SET category_id = 101 
 WHERE merchant_name IN ('merchant 1','merchant 4','merchant 3') 
   AND ((product_name LIKE '%abcd%' AND product_name LIKE '%efhg%') ) 
   AND ((product_name NOT LIKE '%3258%') OR (product_name NOT LIKE '%yxzs%'))

我建议创建以下索引:

CREATE INDEX idx_test ON Products (merchant_name) INCLUDE product_name)

后记

即使进行了上述更改,在处理100k +记录时仍会运行很长时间。解决这个问题的唯一真正解决方案是使用基于集合的方法,但需要庞大的动态sql字符串;或者对数据本身有一些更好的了解。例如。您可以尝试合并具有相同Filters 但不同Merchants / Match的不同NoMatch条记录...可能不太难,但可能我建议首先从上面的建议开始,然后看看你最终的位置。