PL / SQL比较位串,我需要一个AND运算?

时间:2011-09-13 09:39:41

标签: sql oracle plsql bit-manipulation logical-operators

我目前有一个脚本可以计算化学库指纹上的tanimoto系数。然而,在测试期间,我发现由于我比较位串的方法(我只需要太长时间),我的实现无法按比例放大。见下文。这是我需要改进的循环。我已经简化了这个,所以它只是看两个结构,真正的脚本对结构数据集的排列,但这会使我在这里的问题复杂化。

LOOP
-- Find the NA bit
SELECT SUBSTR(qsar_kb.fingerprint.fingerprint, var_fragment_id ,1) INTO var_na FROM qsar_kb.fingerprint where project_id = 1 AND structure_id = 1;

-- FIND the NB bit
SELECT SUBSTR(qsar_kb.fingerprint.fingerprint, var_fragment_id ,1) INTO var_nb FROM qsar_kb.fingerprint where project_id = 1 AND structure_id = 2;

-- Test for both bits the same
IF var_na > 0 AND var_nb > 0 then
var_tally := var_tally + 1;
END IF;

-- Test for bit in A on and B off
IF var_na > var_nb then
var_tna := var_tna + 1;
END IF

-- Test for bit in B on and A off.
IF var_nb > var_na then
var_tnb := var_tnb + 1;
END IF;

var_fragment_id := var_fragment_id + 1;
EXIT WHEN var_fragment_id > var_maxfragment_id;
END LOOP;

举个简单的例子

结构A ='101010'

结构B ='011001'

在我的实际数据集中,二进制文件的长度为500位以上。 我需要知道:

1)两者共有的位数ON

2)A中的位数ON但是B中的关闭

3)B中的ON位数但B中的off

所以在这种情况下

1)= 1

2)= 2

3)= 2

理想情况下,我想改变我这样做的方式。我不希望在每个字符串中的每一位都进行浸泡,但是当我将整个系统扩展到数千个结构时,每个字符串的长度超过500-1000

我解决这个问题的逻辑是:

中取总位数ON

A)= 3

B)= 3

然后执行AND操作并查找两者中有多少位 = 1

然后从总计中减去这个,找到一个而不是另一个的位数。

那么如何对0和1的两个字符串执行AND运算才能找到普通1的字符串?

4 个答案:

答案 0 :(得分:4)

查看BITAND功能。

  

BITAND函数将其输入及其输出视为位向量;输出是输入的按位AND。

但是,根据文档,这仅适用于2^128

答案 1 :(得分:3)

您应该将SELECT移出循环。我很确定你花了99%的时间选择1位500次,你可以一次选择500位然后循环遍历字符串:

DECLARE
   l_structure_a LONG;
   l_structure_b LONG;
   var_na        VARCHAR2(1);
   var_nb        VARCHAR2(1);
BEGIN
   SELECT MAX(decode(structure_id, 1, fingerprint)), 
          MAX(decode(structure_id, 2, fingerprint))
     INTO l_structure_a, l_structure_b
     FROM qsar_kb.fingerprint
    WHERE project_id = 1
      AND structure_id IN (1,2);
   LOOP
      var_na := substr(l_structure_a, var_fragment_id, 1);
      var_nb := substr(l_structure_b, var_fragment_id, 1);

      -- Test for both bits the same
      IF var_na > 0 AND var_nb > 0 THEN
         var_tally := var_tally + 1;
      END IF;   
      -- Test for bit in A on and B off
      IF var_na > var_nb THEN
         var_tna := var_tna + 1;
      END IF;   
      -- Test for bit in B on and A off.
      IF var_nb > var_na THEN
         var_tnb := var_tnb + 1;
      END IF;

      var_fragment_id := var_fragment_id + 1;
      EXIT WHEN var_fragment_id > var_maxfragment_id;
   END LOOP;
END;

修改 您也可以在单个SQL语句中执行此操作:

SQL> WITH DATA AS (
  2     SELECT '101010' fingerprint,1 project_id, 1 structure_id FROM dual
  3     UNION ALL SELECT '011001', 1, 2 FROM dual),
  4  transpose AS (SELECT ROWNUM fragment_id FROM dual CONNECT BY LEVEL <= 1000)
  5  SELECT COUNT(CASE WHEN var_na = 1 AND var_nb = 1 THEN 1 END) nb_1,
  6         COUNT(CASE WHEN var_na > var_nb THEN 1 END) nb_2,
  7         COUNT(CASE WHEN var_na < var_nb THEN 1 END) nb_3
  8    FROM (SELECT to_number(substr(struct_a, fragment_id, 1)) var_na,
  9                 to_number(substr(struct_b, fragment_id, 1)) var_nb
 10             FROM (SELECT MAX(decode(structure_id, 1, fingerprint)) struct_a,
 11                           MAX(decode(structure_id, 2, fingerprint)) struct_b
 12                      FROM DATA
 13                     WHERE project_id = 1
 14                       AND structure_id IN (1, 2))
 15            CROSS JOIN transpose);

      NB_1       NB_2       NB_3
---------- ---------- ----------
         1          2          2

答案 2 :(得分:0)

我会更多地从Lukas那里得到更多信息。

来自Tom Kyte(来自Jonathan Lewis)的一些互联网搜索revealed code,用于在基数之间进行转换。有一个函数to_dec,它将获取一个字符串并将其转换为数字。我已经复制了以下代码:

将基数转换为十进制:

create or replace function to_dec( 
  p_str in varchar2, 
  p_from_base in number default 16) return number
is
    l_num   number default 0;
    l_hex   varchar2(16) default '0123456789ABCDEF';
begin
    for i in 1 .. length(p_str) loop
        l_num := l_num * p_from_base + instr(l_hex,upper(substr(p_str,i,1)))-1;
    end loop;
    return l_num;
end to_dec;

将十进制转换为基数:

create or replace function to_base( p_dec in number, p_base in number ) 
return varchar2
is
    l_str   varchar2(255) default NULL;
    l_num   number  default p_dec;
    l_hex   varchar2(16) default '0123456789ABCDEF';
begin
    if ( trunc(p_dec) <> p_dec OR p_dec < 0 ) then
        raise PROGRAM_ERROR;
    end if;
    loop
        l_str := substr( l_hex, mod(l_num,p_base)+1, 1 ) || l_str;
        l_num := trunc( l_num/p_base );
        exit when ( l_num = 0 );
    end loop;
    return l_str;
end to_base;

可以调用此函数将字符串位图转换为可以与bitand一起使用的数字。这方面的一个例子是:

select to_dec('101010', 2) from dual

Oracle实际上只提供BITAND(和BIT_TO_NUM这里没有真正相关的作为逻辑运算的方法,但这里所需的操作是(A AND B),(A AND NOT) B)和(不是A和B)。所以我们需要将A转换为NOT A。一种简单的方法是使用translate。

所以......最后的结果是:

select 
  length(translate(to_base(bitand(data_A, data_B),2),'10','1')) as nb_1,
  length(translate(to_base(bitand(data_A, data_NOT_B),2),'10','1'))  as nb_2,
  length(translate(to_base(bitand(data_NOT_A, data_B),2),'10','1'))  as nb_3
from (
  select 
    to_dec(data_A,2) as data_A, 
    to_dec(data_b,2) as data_B,
    to_dec(translate(data_A, '01', '10'),2) as data_NOT_A, 
    to_dec(translate(data_B, '01', '10'),2) as data_NOT_B
  from (
    select '101010' as data_A, '011001' as data_B from dual
  )
)

这比我希望在开始写这个答案时要复杂一些,但似乎确实有效。

答案 3 :(得分:0)

可以通过以下方式完成:

SELECT utl_raw.BIT_AND( t.A, t.B )                                                 SET_IN_A_AND_B,
       length(replace(utl_raw.BIT_AND( t.A, t.B ), '0', ''))                       SET_IN_A_AND_B_COUNT,
       utl_raw.BIT_AND( t.A, utl_raw.bit_complement(t.B) )                         ONLY_SET_IN_A,
       length(replace(utl_raw.BIT_AND( t.A, utl_raw.bit_complement(t.B) ),'0','')) ONLY_SET_IN_A_COUNT,
       utl_raw.BIT_AND( t.B, utl_raw.bit_complement(t.A) )                         ONLY_SET_IN_A,
       length(replace(utl_raw.BIT_AND( t.B, utl_raw.bit_complement(t.A) ),'0','')) ONLY_SET_IN_A_COUNT       
  FROM (SELECT '1111100000111110101010' A, '1101011010101010100101' B FROM dual) t

确保您的位串具有均匀的长度(如果它具有奇数长度,则将其填充为零)。