Question

参考之前的问题答案之一， Getting counts/totals at each level of a hierarchical query using CONNECT BY

DIRS
====
DIR_ID 
PARENT_DIR_ID
DIR_NAME

FILES
=====
FILE_ID
FILE_NAME
DIR_ID
FILE_SIZE


       If DIRS contains:

DIR_ID   PARENT_DIR_ID   DIR_NAME
======   =============   ========
1                        ROOT
2        1               DIR1_1
3        1               DIR1_2
4        2               DIR2_1
5        2               DIR2_2

Out Out is shown below.



 FILE_ID   FILE_NAME   DIR_ID   FILE_SIZE
    =======   =========   ======   =========
    1         test1.txt   5        100
    2         test2.txt   5        200
    3         test5.txt   5         50 
    4         test3.txt   3        300
    5         test4.txt   3        300
    6         test6.txt   4        100

我想要一个返回路径的查询以及层次结构中每个节点中或下面的文件数。基本上是文件数量的汇总。因此查询结果如下所示：

Path                    File_Count    File_Size
=====                   ===========   --------
/ROOT                   6               1050
/ROOT/DIR1_1            4               450 
/ROOT/DIR1_1/DIR2_1     1               100 
/ROOT/DIR1_1/DIR2_2     3               350  
/ROOT/DIR1_2            2               600

  1  select sys_connect_by_path(dp.dir_name, '/') path    
  2         ,(select count(file_id)                       
  3             from dirs dc                              
  4                  ,files f                             
  5            where f.dir_id(+) = dc.dir_id              
  6          connect by prior dc.dir_id = dc.parent_dir_id
  7            start with dc.dir_id = dp.dir_id           
  8          ) count                                      
  9    from dirs dp                                       
 10    connect by prior dp.dir_id = dp.parent_dir_id      
 11*   start with dp.parent_dir_id is null

我如何计算size列旁边的File size列。

除了文件大小的总和之外，此查询正常。

           (select count(file_id)                       
               from dirs dc                              
                    ,files f                             
              where f.dir_id(+) = dc.dir_id              
            connect by prior dc.dir_id = dc.parent_dir_id
              start with dc.dir_id = dp.dir_id           
            ) count, 
            (select sum(file_size)                       
                       from dirs dc                              
                            ,files f                             
                      where f.dir_id(+) = dc.dir_id              
                    connect by prior dc.dir_id = dc.parent_dir_id
                      start with dc.dir_id = dp.dir_id           
            ) size   
      from dirs dp                                       
     connect by prior dp.dir_id = dp.parent_dir_id      
start with dp.parent_dir_id is null

我修改了查询以获取每个级别的文件大小但没有成功。知道缺少什么吗？

我需要的只是File_Size列的计数，如上所示。

Answer 1

我想到了多个解决方案，不妨在这里列出所有解决方案。

子查询方法

这是你使用的 - 列出每个目录，为每个目录做两个递归子查询。我基本上重复了你在这里写的内容，它按预期工作。您的错误是使用保留字count和size作为列名。

select sys_connect_by_path(dp.dir_name, '/') path,
(select count(file_id)
   from dirs dc, files f
  where f.dir_id(+) = dc.dir_id
connect by prior dc.dir_id = dc.parent_dir_id
  start with dc.dir_id = dp.dir_id
  ) cnt,
(select sum(file_size)
   from dirs dc, files f
  where f.dir_id(+) = dc.dir_id
connect by prior dc.dir_id = dc.parent_dir_id
  start with dc.dir_id = dp.dir_id
  ) sz
from dirs dp
connect by prior dp.dir_id = dp.parent_dir_id
start with dp.parent_dir_id is null;

但是，在较大的数据集上，这可能会非常慢。还有其他方法。

直接加入方法

这个效率不高并且有一些限制，但似乎相当容易理解。对我来说，它比子查询执行得快一点。

1）获取完整的目录层次结构

2）针对（1）加入文件以找出每个文件的完整目录号

3）在file_dirname like dirname||'%'上加入（1）和（2）以获取属于指定目录或其任何子目录的文件列表，然后group by (1).dir_id并获取您的总和。

请注意，dirnames必须以'/'结尾才能正常工作;此外，目录完整路径必须是唯一的。

它看起来像那样：

with dirs_r as
(select sys_connect_by_path(dp.dir_name, '/')||'/' path, dir_id
  from dirs dp                                       
connect by prior dp.dir_id = dp.parent_dir_id      
  start with dp.parent_dir_id is null
)

select dirs_r.path, count(*), sum(files_q.file_size)
  from dirs_r,
  (select d.path, f.file_size
    from files f, dirs_r d
   where d.dir_id = f.dir_id) files_q
 where files_q.path like dirs_r.path||'%'
group by dirs_r.path
order by dirs_r.path

反向接近：

这可能有点难以理解，但根据解释计划更有效，而且它也只使用ID，因此它更可靠。它的执行速度也比上述两者都快。

1）使用dp.dir_id = prior dp.parent_dir_id和connect_by_root(dir_id)为每个目录构建反向目录层次结构。这样，您就可以获得每个目录ID及其所有父目录的行。

2）加入（1）文件，获取每个文件的每个父目录的行。

3）在dir_id上加入（2）直接层次结构，然后加入组。

select dirs_r.path, count(*), sum(filedir.file_size) from
(select sys_connect_by_path(dp.dir_name, '/') path, dir_id
  from dirs dp                                       
connect by prior dp.dir_id = dp.parent_dir_id      
  start with dp.parent_dir_id is null
) dirs_r,

(select f.file_size, dirs_reverse.dir_id dir_id
  from files f,
       (select connect_by_root(dp.dir_id) inner_dir_id, dp.dir_id
          from dirs dp
       connect by dp.dir_id = prior dp.parent_dir_id  
       ) dirs_reverse
 where dirs_reverse.inner_dir_id = f.dir_id) filedir

where dirs_r.dir_id = filedir.dir_id
group by dirs_r.path
order by dirs_r.path

在层次查询的每个级别获取计数

1 个答案: