当谈到Oracle 11.2上的v$sql_plan_monitor
表时,我遇到了一些奇怪的现象。
我有两张体面的桌子。一个有大约2500万行,另外大约有3500万行,两者都是99%的独特性,只有少数几个重复记录。
解释计划如下(表格名称代替隐私,表格在解释计划之前收集了统计数据):
--------------------------------------------------------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time | TQ |IN-OUT| PQ Distrib |
--------------------------------------------------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | | | 65611 (100)| | | | |
| 1 | SORT AGGREGATE | | 1 | 34 | | | | | |
| 2 | PX COORDINATOR | | | | | | | | |
| 3 | PX SEND QC (RANDOM) | :TQ10002 | 1 | 34 | | | Q1,02 | P->S | QC (RAND) |
| 4 | SORT AGGREGATE | | 1 | 34 | | | Q1,02 | PCWP | |
|* 5 | FILTER | | | | | | Q1,02 | PCWC | |
|* 6 | HASH JOIN OUTER | | 234K| 7770K| 65611 (1)| 00:19:41 | Q1,02 | PCWP | |
| 7 | PX RECEIVE | | 23M| 513M| 26409 (1)| 00:07:56 | Q1,02 | PCWP | |
| 8 | PX SEND HASH | :TQ10000 | 23M| 513M| 26409 (1)| 00:07:56 | Q1,00 | P->P | HASH |
| 9 | PX BLOCK ITERATOR | | 23M| 513M| 26409 (1)| 00:07:56 | Q1,00 | PCWC | |
|* 10 | TABLE ACCESS FULL| PRETTY_BIG_TABLE | 23M| 513M| 26409 (1)| 00:07:56 | Q1,00 | PCWP | |
| 11 | PX RECEIVE | | 36M| 384M| 39164 (1)| 00:11:45 | Q1,02 | PCWP | |
| 12 | PX SEND HASH | :TQ10001 | 36M| 384M| 39164 (1)| 00:11:45 | Q1,01 | P->P | HASH |
| 13 | PX BLOCK ITERATOR | | 36M| 384M| 39164 (1)| 00:11:45 | Q1,01 | PCWC | |
|* 14 | TABLE ACCESS FULL| EVEN_BIGGER_TABLE | 36M| 384M| 39164 (1)| 00:11:45 | Q1,01 | PCWP | |
--------------------------------------------------------------------------------------------------------------------------------
给我一些悲伤的数字是Rows
步骤的HASH JOIN OUTER
值。
甲骨文估计它将输出大约234k行,这是一个相对较小的数量。我知道一个事实是,在过滤结果之前,查询将返回大约50k行,因为它之前已经运行了相同的数据用于测试目的。
*:实际查询本身是一个反连接,使用LEFT JOIN
和WHERE
来过滤NULL记录。
但是,一旦查询运行,我会检查sql_id
表中的v$sql_plan_monitor
:
1 SELECT
2 plan_line_id,
3 plan_operation,
4 ROUND(MAX(plan_cardinality) / 1000) AS est_krows,
5 ROUND(SUM(output_rows) / 1000) AS actual_krows
6 FROM v$sql_plan_monitor
7 WHERE sql_id = 'sql_id_goes_here'
8 GROUP BY sql_id, sql_exec_id, sql_exec_start, plan_line_id, plan_operation
9* ORDER BY sql_exec_id, plan_line_id
SQL> /
PLAN_LINE_ID PLAN_OPERATION EST_KROWS ACTUAL_KROWS
------------ ------------------------------ ---------- ------------
0 SELECT STATEMENT 0
1 SORT 0 0
2 PX COORDINATOR 0
3 PX SEND 0 0
4 SORT 0 0
5 FILTER 0
6 HASH JOIN 234 23084866
7 PX RECEIVE 23402 23168
8 PX SEND 23402 23168
9 PX BLOCK 23402 23168
10 TABLE ACCESS 23402 23168
11 PX RECEIVE 36699 17772
12 PX SEND 36699 17748
13 PX BLOCK 36699 17748
14 TABLE ACCESS 36699 17748
请注意,查询仍在进行中,因此actual_krows
值正在增长。
所以我的问题是:
答案 0 :(得分:3)
为什么估算错误?
因为理论上,it is impossible to predict if a program will ever finish更不用说预测需要多长时间。实际上,估算很困难,Oracle只有satisficing的时间; Oracle不知道查询是每天提交一次还是每秒提交一千次,并且不能花费大量时间来决定。
我们如何改进估算?
查看整个查询并获得有关表结构和数据分布的一些信息可能会有所帮助。这是很多信息,并不能保证它会有所帮助。相反,这里有一堆方法可能对调整基数很有用。根据您的查询,会话,环境等,并非所有这些都会有所帮助。
NVL
表达式有时可以使用OR
更好地编写。OPT_ESTIMATE
和CARDINALITY
提示有助于弥补不良估算值。 OPT_ESTIMATE
是SQL配置文件使用的,并且是一种很好的方式来表示"嘿,将基数提高1000%"。 CARDINALITY
是一种简单的说法"整个查询将返回X行。"但这些提示很难使用。我们甚至需要确定估算值吗?
关心基数是明智的。不良基数估计导致许多性能问题。但在许多情况下,基数可能是数量级的错误而且无关紧要。
我没有看到执行计划有任何明显的问题。以正确的方式访问两个大表(如果将使用大多数行,则全表扫描更好),join方法很好(散列连接最适合多行),连接顺序很好(大表是哈希的(即第一个表),探测较大的表(即第二个表)),并行性很好(每个步骤都使用并行性,没有大型行源的广播等)。
如果执行计划是整个故事,我称之为成功。
5个数量级的关闭有时并不重要,特别是当错误接近执行计划的结束时。 234K足以阻止很多错误,例如糟糕的交叉连接。
但是,如果这只是较大查询或视图的一部分,则生成的基数可能会影响其他执行计划。