T-SQL查询优化

时间:2008-12-04 03:58:01

标签: sql sql-server

我正在为我们为客户提供的内部网络分析系统进行一些升级(在没有首选供应商或Google Analytics的情况下),我正在处理以下问题:

select 
    path as EntryPage, 
    count(Path) as [Count] 
from 
    (
        /* Sub-query 1 */
        select 
            pv2.path
        from 
            pageviews pv2 
                inner join
                    (
                        /* Sub-query 2 */
                        select
                            pv1.sessionid,
                            min(pv1.created) as created
                        from
                            pageviews pv1 
                                inner join Sessions s1 on pv1.SessionID = s1.SessionID
                                inner join Visitors v1 on s1.VisitorID = v1.VisitorID
                        where
                            pv1.Domain = isnull(@Domain, pv1.Domain) and
                            v1.Campaign = @Campaign
                        group by
                            pv1.sessionid
                    ) t1 on pv2.sessionid = t1.sessionid and pv2.created = t1.created
    ) t2
group by 
    Path;

我在PageViews表中测试了200万行这个查询,运行大约需要20秒。我在执行计划中注意到两次聚簇索引扫描,两次都会到达PageViews表。该表中的Created列上有一个聚簇索引。

问题在于,在两种情况下,它似乎都会遍历所有200万行,我认为这是性能瓶颈。有什么我可以做的来防止这种情况,或者就优化而言,我是否已达到最大限度?

作为参考,查询的目的是找到每个会话的第一页视图。

编辑:经过很多挫折,尽管在这里收到了帮助,我无法使这个查询工作。因此,我决定只在会话表中存储对条目页面(现在是退出页面)的引用,这允许我执行以下操作:

select
    pv.Path,
    count(*)
from
    PageViews pv
        inner join Sessions s on pv.SessionID = s.SessionID
            and pv.PageViewID = s.ExitPage
        inner join Visitors v on s.VisitorID = v.VisitorID
where
    (
        @Domain is null or 
        pv.Domain = @Domain
    ) and
    v.Campaign = @Campaign
group by pv.Path;

此查询在3秒或更短时间内运行。现在,我必须在记录页面视图(最佳解决方案)时实时更新进入/退出页面,或者以某个间隔运行批量更新。无论哪种方式,它解决了问题,但不像我想要的那样。

编辑编辑:添加缺失的索引(从昨晚清理后)将查询减少到仅毫秒)。呜呜!

6 个答案:

答案 0 :(得分:2)

首先,

    where pv1.Domain = isnull(@Domain, pv1.Domain) 

不会SARG。我记得你无法优化函数的匹配。

答案 1 :(得分:1)

继续doofledorf。

试试这个:

where
   (@Domain is null or pv1.Domain = @Domain) and
   v1.Campaign = @Campaign

好的,我有几点建议

  1. 创建此覆盖索引:

     create index idx2 on [PageViews]([SessionID], Domain, Created, Path)
    
  2. 如果您可以修改Sessions表以便它存储输入页面,例如。 EntryPageViewID您将能够对此进行大量优化。

答案 2 :(得分:1)

您的内部查询(pv1)将需要(域)上的非聚集索引。

由于Created上的聚簇索引,第二个查询(pv2)已经可以找到它所需的行,但是pv1可能返回了很多行,SQL Server认为表扫描比它需要的所有锁更快。采取。由于SessionID上的pv1组(因此必须按SessionID排序),SessionID,Created和包含路径上的非聚簇索引应允许发生MERGE连接。如果没有,您可以强制合并连接“SELECT .. FROM pageviews pv2 INNER MERGE JOIN ...”

上面列出的两个指数将是:

在页面视图(域)上创建NONCLUSTERED索引ncixcampaigndomain

创建NONCLUSTERED索引ncixsessionid创建ON PageViews(SessionID,已创建)INCLUDE(路径)

答案 3 :(得分:1)

我回来了。要回答你的第一个问题,你可能只是在两个条件下进行联合,因为它们显然是不相交的。

实际上,您试图涵盖提供域名的情况和不提供域名的情况。你想要两个查询。它们可能完全不同地进行优化。

答案 4 :(得分:1)

这些表格中数据的性质是什么?您是否发现定期插入/删除大部分数据?

这是表的完整架构吗?查询计划显示不同的索引.. 编辑:对不起,请阅读最后一行文字。我建议如果表被定期清除/插入,你可以考虑放弃聚集索引并将表用作堆表..只是一个想法

绝对应该将非聚集索引放在Campaign,Domain上,如John建议的那样

答案 5 :(得分:1)

SELECT  
    sessionid,  
    MIN(created) AS created  
FROM  
    pageviews pv  
JOIN  
    visitors v ON pv.visitorid = v.visitorid  
WHERE  
    v.campaign = @Campaign  
GROUP BY  
    sessionid  

这样可以为您提供广告系列的会话。现在让我们看看你正在做什么。

好的,这可以摆脱你的分组:

SELECT  
    campaignid,  
    sessionid,   
    pv.path  
FROM  
    pageviews pv  
JOIN  
    visitors v ON pv.visitorid = v.visitorid  
WHERE  
    v.campaign = @Campaign  
    AND NOT EXISTS (  
        SELECT 1 FROM pageviews  
        WHERE sessionid = pv.sessionid  
        AND created < pv.created  
    )