我正在为我们为客户提供的内部网络分析系统进行一些升级(在没有首选供应商或Google Analytics的情况下),我正在处理以下问题:
select
path as EntryPage,
count(Path) as [Count]
from
(
/* Sub-query 1 */
select
pv2.path
from
pageviews pv2
inner join
(
/* Sub-query 2 */
select
pv1.sessionid,
min(pv1.created) as created
from
pageviews pv1
inner join Sessions s1 on pv1.SessionID = s1.SessionID
inner join Visitors v1 on s1.VisitorID = v1.VisitorID
where
pv1.Domain = isnull(@Domain, pv1.Domain) and
v1.Campaign = @Campaign
group by
pv1.sessionid
) t1 on pv2.sessionid = t1.sessionid and pv2.created = t1.created
) t2
group by
Path;
我在PageViews表中测试了200万行这个查询,运行大约需要20秒。我在执行计划中注意到两次聚簇索引扫描,两次都会到达PageViews表。该表中的Created列上有一个聚簇索引。
问题在于,在两种情况下,它似乎都会遍历所有200万行,我认为这是性能瓶颈。有什么我可以做的来防止这种情况,或者就优化而言,我是否已达到最大限度?
作为参考,查询的目的是找到每个会话的第一页视图。
编辑:经过很多挫折,尽管在这里收到了帮助,我无法使这个查询工作。因此,我决定只在会话表中存储对条目页面(现在是退出页面)的引用,这允许我执行以下操作:
select
pv.Path,
count(*)
from
PageViews pv
inner join Sessions s on pv.SessionID = s.SessionID
and pv.PageViewID = s.ExitPage
inner join Visitors v on s.VisitorID = v.VisitorID
where
(
@Domain is null or
pv.Domain = @Domain
) and
v.Campaign = @Campaign
group by pv.Path;
此查询在3秒或更短时间内运行。现在,我必须在记录页面视图(最佳解决方案)时实时更新进入/退出页面,或者以某个间隔运行批量更新。无论哪种方式,它解决了问题,但不像我想要的那样。
编辑编辑:添加缺失的索引(从昨晚清理后)将查询减少到仅毫秒)。呜呜!
答案 0 :(得分:2)
首先,
where pv1.Domain = isnull(@Domain, pv1.Domain)
不会SARG。我记得你无法优化函数的匹配。
答案 1 :(得分:1)
继续doofledorf。
试试这个:
where
(@Domain is null or pv1.Domain = @Domain) and
v1.Campaign = @Campaign
好的,我有几点建议
创建此覆盖索引:
create index idx2 on [PageViews]([SessionID], Domain, Created, Path)
如果您可以修改Sessions表以便它存储输入页面,例如。 EntryPageViewID您将能够对此进行大量优化。
答案 2 :(得分:1)
您的内部查询(pv1)将需要(域)上的非聚集索引。
由于Created上的聚簇索引,第二个查询(pv2)已经可以找到它所需的行,但是pv1可能返回了很多行,SQL Server认为表扫描比它需要的所有锁更快。采取。由于SessionID上的pv1组(因此必须按SessionID排序),SessionID,Created和包含路径上的非聚簇索引应允许发生MERGE连接。如果没有,您可以强制合并连接“SELECT .. FROM pageviews pv2 INNER MERGE JOIN ...”
上面列出的两个指数将是:
在页面视图(域)上创建NONCLUSTERED索引ncixcampaigndomain
创建NONCLUSTERED索引ncixsessionid创建ON PageViews(SessionID,已创建)INCLUDE(路径)
答案 3 :(得分:1)
我回来了。要回答你的第一个问题,你可能只是在两个条件下进行联合,因为它们显然是不相交的。
实际上,您试图涵盖提供域名的情况和不提供域名的情况。你想要两个查询。它们可能完全不同地进行优化。
答案 4 :(得分:1)
这些表格中数据的性质是什么?您是否发现定期插入/删除大部分数据?
这是表的完整架构吗?查询计划显示不同的索引.. 编辑:对不起,请阅读最后一行文字。我建议如果表被定期清除/插入,你可以考虑放弃聚集索引并将表用作堆表..只是一个想法
绝对应该将非聚集索引放在Campaign,Domain上,如John建议的那样
答案 5 :(得分:1)
SELECT
sessionid,
MIN(created) AS created
FROM
pageviews pv
JOIN
visitors v ON pv.visitorid = v.visitorid
WHERE
v.campaign = @Campaign
GROUP BY
sessionid
这样可以为您提供广告系列的会话。现在让我们看看你正在做什么。
好的,这可以摆脱你的分组:
SELECT
campaignid,
sessionid,
pv.path
FROM
pageviews pv
JOIN
visitors v ON pv.visitorid = v.visitorid
WHERE
v.campaign = @Campaign
AND NOT EXISTS (
SELECT 1 FROM pageviews
WHERE sessionid = pv.sessionid
AND created < pv.created
)