对于短字符串，少量数字

Question

e.g，

foo1
foo2
foo10
foo100

而不是

foo1
foo10
foo100
foo2

更新：对自己编码排序不感兴趣（虽然这本身就很有趣），但是让数据库为我做排序。

Answer 1

您可以在order-by子句中使用函数。在这种情况下，你可以拆分的非数字和数字部分字段并将它们用作订购标准中的两个。

select * from t
 order by to_number(regexp_substr(a,'^[0-9]+')),
          to_number(regexp_substr(a,'[0-9]+$')),
          a;

您还可以创建基于函数的索引来支持此功能：

create index t_ix1
    on t (to_number(regexp_substr(a, '^[0-9]+')),
          to_number(regexp_substr(a, '[0-9]+$')), 
          a);

Answer 2

我使用以下函数来填充可以在值中找到的所有短于10的数字序列，以便每个数字的总长度变为10位数。即使是具有一个，多个或没有数字序列的混合值集合，它也是兼容的。

CREATE OR replace function NATURAL_ORDER(
    P_STR   varchar2
) return varchar2
IS
/** --------------------------------------------------------------------
    Replaces all sequences of numbers shorter than 10 digits by 0-padded
    numbers that exactly 10 digits in length. Usefull for ordering-by
    using NATURAL ORDER algorithm.
 */
    l_result  varchar2( 32700 );
    l_len     integer;
    l_ix      integer;
    l_end     integer;
begin
    l_result := P_STR;
    l_len := LENGTH( l_result );
    l_ix := 1;
    while l_len > 0 loop
        l_ix := REGEXP_INSTR( l_result, '[0-9]{1,9}', l_ix, 1, 0 );
        EXIT when l_ix = 0;
        l_end := REGEXP_INSTR( l_result, '[^0-9]|$', l_ix, 1, 0 );
        if ( l_end - l_ix >= 10 ) then
            l_ix := l_end;
        else
            l_result := substr( l_result, 1, l_ix - 1 )
                     || LPAD( SUBSTR( l_result, l_ix, l_end-l_ix ), 10, '0' )
                     || substr( l_result, l_end )
                     ;
            l_ix := l_ix + 10;
        end if;
    end loop;
    return l_result;
end;
/

例如：

select 'ABC' || LVL || 'DEF' as STR
  from (
          select LEVEL as LVL
            from DUAL
           start with 1=1
           connect by LEVEL <= 35
       )
 order by NATURAL_ORDER( STR )

Answer 3

对于短字符串，少量数字

如果＆＃34;数字＆＃34;并且最大长度是有限的，有一个基于正则表达式的解决方案。

这个想法是：

用20个零填充所有数字
使用其他正则表达式删除过多的零。由于regexp backtracking，这可能会很慢。

假设：

预先知道数字的最大长度（例如20）
所有数字都可以填充（换句话说，lpad('1 ', 3000, '1 ')会失败，因为无法将填充的数字放入varchar2(4000)）

以下查询针对＆＃34;短数字＆＃34;进行了优化。 case（见*?），需要0.4秒。但是，使用此方法时，需要预定义填充长度。

select * from (
  select dbms_random.string('X', 30) val from xmltable('1 to 1000')
)
order by regexp_replace(regexp_replace(val, '(\d+)', lpad('0', 20, '0')||'\1')
                      , '0*?(\d{21}(\D|$))', '\1');

＆＃34;聪明＆＃34;方法

尽管单独的natural_sort函数可以很方便，但在纯SQL中有一个鲜为人知的技巧。

主要观点：

从所有数字中删除前导零，以便在02和1：3之间排序regexp_replace(val, '(^|\D)0+(\d+)', '\1\2')。注意：这可能导致＆＃34;意外＆＃34;排序10.02＆gt; 10.1（因为02已转换为2），但10.02.03之类的内容应如何排序
将"转换为""，因此带引号的文字可以正常使用
将输入字符串转换为逗号分隔格式：'"'||regexp_replace(..., '([^0-9]+)', '","\1","')||'"'
通过xmltable
扩充类似数字的项目，以便字符串排序正常工作
使用length(length(num))||length(num)||num代替lpad(num, 10, '0')，因为后者不太紧凑，不支持11位以上的数字。注意：

对于长度为30的1000个随机字符串的列表进行排序，响应时间大约为3-4秒（随机字符串的生成本身需要0.2秒）。消费者的主要时间是xmltable，它将文本拆分为行。如果使用PL / SQL而不是xmltable将字符串拆分为行，则对于相同的1000行，响应时间将减少到0.4秒。

以下查询执行100个随机字母数字字符串的自然排序（注意：它在Oracle 11.2.0.4中产生错误的结果，并且在12.1.0.2中有效）：

select *
  from (
    select (select listagg(case when regexp_like(w, '^[0-9]')
                                then length(length(w))||length(w)||w else w
                           end
                   ) within group (order by ord)
              from xmltable(t.csv columns w varchar2(4000) path '.'
                                        , ord for ordinality) q
           ) order_by
         , t.*
    from (
           select '"'||regexp_replace(replace(
                                          regexp_replace(val, '(^|\D)0+(\d+)', '\1\2')
                                        , '"', '""')
                                    , '([^0-9]+)', '","\1","')||'"' csv
                , t.*
           from (
                  select dbms_random.string('X', 30) val from xmltable('1 to 100')
                ) t
         ) t
  ) t
order by order_by;

有趣的部分是这个order by可以在没有子查询的情况下表达，因此它是一个方便的工具，让你的审稿人疯狂（它适用于11.2.0.4和12.1.0.2）：

select *
  from (select dbms_random.string('X', 30) val from xmltable('1 to 100')) t
 order by (
   select listagg(case when regexp_like(w, '^[0-9]')
                       then length(length(w))||length(w)||w else w
                  end
          ) within group (order by ord)
     from xmltable('$X'
            passing xmlquery(('"'||regexp_replace(replace(
                                                     regexp_replace(t.val, '(^|\D)0+(\d+)', '\1\2')
                                                   , '"', '""')
                                                , '([^0-9]+)', '","\1","')||'"')
                             returning sequence
                    ) as X
            columns w varchar2(4000) path '.', ord for ordinality) q
);

Oracle：如何在SQL查询中实现“自然”的顺序？

3 个答案:

对于短字符串，少量数字

＆＃34;聪明＆＃34;方法