在Oracle 2个表上联接相同类型但长度不同的列

时间:2019-11-05 11:15:37

标签: sql oracle database-indexes

我有2个表,每个表具有nvarchar2类型的列sub_id,但是长度不同(一个为30,另一个为255)。我在这两个表的相应sub_id列上都创建了数据库索引。我正在对这些表的sub_id列进行联接。

我的表有数百万行,因此不使用索引的联接会花费很多时间。我不确定是否在这里使用索引,因为我怀疑列长的差异可能导致全表扫描。

请提供深刻的见解,因为我对这种基本的数据库管理概念还很陌生。    我已经尝试阅读更多有关此内容的信息,但可以找到足够具体的内容。

编辑: 另一个查询,是否可以将这2个sub_id列设置为varchar2,将另一个列设置为nvarchar,并使用索引?

1 个答案:

答案 0 :(得分:1)

提供的数据类型是兼容的-即无需(隐式)转换-优化器可以使用索引来联接表。

  

我的表有数百万行,因此不使用索引的联接需要一个   很多时间

那要看!

如果您要从两个表中获取大多数*行,则对两个表进行完全扫描可能会更快。然后哈希加入结果。

例如,这将连接两个表中的所有行。您将获得所有东西,因此无需使用索引:

create table t1 (
  c1, c2
) as
  select cast ( level as nvarchar2(30) ) , rpad ( 'stuff', 100, 'f' )
  from   dual
  connect by level <= 1000;

create table t2 (
  c1, c2, c3
) as
  select cast ( level as nvarchar2(255) ) , mod ( level, 333 ) , rpad ( 'stuff', 100, 'f' ) 
  from   dual
  connect by level <= 1000;

create index i1
  on t1 ( c1 );

create index i2
  on t2 ( c1 );

create index i2_c2
  on t2 ( c2 );  

exec dbms_stats.gather_table_stats ( user, 't1' ) ;
exec dbms_stats.gather_table_stats ( user, 't2' ) ;

set serveroutput off
alter session set statistics_level = all;

select * from t1
join   t2
on     t1.c1 = t2.c1;

select * 
from   table(dbms_xplan.display_cursor(null, null, 'IOSTATS LAST'));

-------------------------------------------------------------------------------------    
| Id  | Operation          | Name | Starts | E-Rows | A-Rows |   A-Time   | Buffers |    
-------------------------------------------------------------------------------------    
|   0 | SELECT STATEMENT   |      |      1 |        |   1000 |00:00:00.01 |      45 |    
|*  1 |  HASH JOIN         |      |      1 |   1000 |   1000 |00:00:00.01 |      45 |    
|   2 |   TABLE ACCESS FULL| T1   |      1 |   1000 |   1000 |00:00:00.01 |      18 |    
|   3 |   TABLE ACCESS FULL| T2   |      1 |   1000 |   1000 |00:00:00.01 |      27 |    
-------------------------------------------------------------------------------------

如果从一张表中得到的行数很少*,该怎么办?

您将要使用索引来查找它们。并且-如果每个链接仅指向另一个表中的少数几行,则-在嵌套循环联接中使用第二个表上的索引。如本例所示,它从一个表中获取三行。每个都彼此相连:

select * from t1
join   t2
on     t1.c1 = t2.c1
where  t2.c2 = 0;

select * 
from   table(dbms_xplan.display_cursor(null, null, 'IOSTATS LAST'));

-------------------------------------------------------------------------------------------------    
| Id  | Operation                     | Name  | Starts | E-Rows | A-Rows |   A-Time   | Buffers |    
-------------------------------------------------------------------------------------------------    
|   0 | SELECT STATEMENT              |       |      1 |        |      3 |00:00:00.01 |      13 |    
|   1 |  NESTED LOOPS                 |       |      1 |      3 |      3 |00:00:00.01 |      13 |    
|   2 |   NESTED LOOPS                |       |      1 |      3 |      3 |00:00:00.01 |      10 |    
|   3 |    TABLE ACCESS BY INDEX ROWID| T2    |      1 |      3 |      3 |00:00:00.01 |       5 |    
|*  4 |     INDEX RANGE SCAN          | I2_C2 |      1 |      3 |      3 |00:00:00.01 |       2 |    
|*  5 |    INDEX RANGE SCAN           | I1    |      3 |      1 |      3 |00:00:00.01 |       5 |    
|   6 |   TABLE ACCESS BY INDEX ROWID | T1    |      3 |      1 |      3 |00:00:00.01 |       3 |    
-------------------------------------------------------------------------------------------------

请注意,这确实依赖于连接列都是nvarchar2varchar2。这些是不兼容类型。因此,如果您将它们混合并匹配,那么优化器将无法在连接列上使用索引。

在前面的示例中,从nvarchar2-> varchar2切换t1.c1显示了这一点。现在,尽管两个表中的行很少,但优化器会完全扫描t3

create table t3 as 
  select cast ( c1 as varchar2(30) ) c1, c2 from t1;

select * from t3
join   t2
on     t3.c1 = t2.c1
where  t2.c2 = 0;

select * 
from   table(dbms_xplan.display_cursor(null, null, 'IOSTATS LAST'));

------------------------------------------------------------------------------------------------    
| Id  | Operation                    | Name  | Starts | E-Rows | A-Rows |   A-Time   | Buffers |    
------------------------------------------------------------------------------------------------    
|   0 | SELECT STATEMENT             |       |      1 |        |      3 |00:00:00.01 |      24 |    
|*  1 |  HASH JOIN                   |       |      1 |      3 |      3 |00:00:00.01 |      24 |    
|   2 |   TABLE ACCESS BY INDEX ROWID| T2    |      1 |      3 |      3 |00:00:00.01 |       5 |    
|*  3 |    INDEX RANGE SCAN          | I2_C2 |      1 |      3 |      3 |00:00:00.01 |       2 |    
|   4 |   TABLE ACCESS FULL          | T3    |      1 |   1000 |   1000 |00:00:00.01 |      19 |    
------------------------------------------------------------------------------------------------    

Predicate Information (identified by operation id):                                                 
---------------------------------------------------                                                 

   1 - access("T2"."C1"=SYS_OP_C2C("T3"."C1"))                                                      
   3 - access("T2"."C2"=0)

注意到SYS_OP_C2C上的t3.c1操作了吗?这是一个功能。这意味着数据库不能在此列上使用(基于非函数的)索引。这样您就可以进行全面扫描了。

注意*很少,大多数都是相对术语!这些没有绝对值。我将在this video series中进一步讨论。