比较具有大量列的两个表

时间:2011-10-30 22:08:59

标签: oracle plsql

我已经搜索过,并没有找到解决方案,需要对这么多列进行比较。

我有1个大表(ruleTable)和ca. 300列和1723行以及另一个表(sampleTable),其中包含1行和完全相同的列。 我想要做的是编写一个过程(带有2个参数:sampleTable和ruleTable),将第2行中的第1行与第1个表中的每一行进行比较。

所需的结果是一个包含1723行和3列的表:RULE_ID,WRONG(具有相同值的列数),RIGHT((具有不同值的列数)

直到现在我写了一个程序(你可以在下面看到它),但它肯定会变慢,完成任务需要很长时间。有人知道如何改进这种方法(或者可能完全改变)并应对这个问题?最大的问题是列数......

PROCEDURE MAKE_CLASSIFICATION(sampleTable VARCHAR2, ruleTable VARCHAR2) AS
   l_query VARCHAR2(10000) := '';
   l_rulesColumns TEXTLIST := GetFeatureColumnList(ruleTable);
   l_rulesIDs TEXTLIST := GetTableColumnValues(ruleTable, 'ID');
   rule_value NUMBER;
   sample_value NUMBER;
   right NUMBER := 0;
   wrong NUMBER := 0;
BEGIN
   FOR j IN 1..l_rulesIDs.count()
   LOOP

      FOR i IN 1..l_rulesColumns.count()
      LOOP
         l_query := 'SELECT ' || l_rulesColumns(i) || ' FROM ' || ruleTable || ' WHERE ID=' || l_rulesIDs(j);
         EXECUTE IMMEDIATE l_query INTO rule_value;
         l_query := 'SELECT ' || l_rulesColumns(i) || ' FROM ' || sampleTable || ' WHERE rownum=1';
         EXECUTE IMMEDIATE l_query INTO sample_value;

         IF(rule_value = sample_value) THEN right:=right+1;
         ELSE wrong := wrong + 1;
         END IF;
      END LOOP;
      DBMS_output.put_line('right: ' || right || ';  wrong: ' || wrong );
      wrong := 0;
      right := 0;

   END LOOP;
END;

类型TEXTLIST是全局定义的:

 TYPE TEXTLIST IS VARRAY(1000000) OF VARCHAR2(10000);

GetFeatureColumnList - >此函数返回TEXTLIST,其中包含表colmun名称列表(没有'ID'列)

GetTableColumnValues - >这个函数返回TEXTLIST,列出了COLUMN的所有值(在我们的例子中 - 列'ID')

提前感谢您的帮助朋友。

2 个答案:

答案 0 :(得分:2)

您可以使用方法4动态sql,使您能够以编程方式循环遍历每一列

请参阅:http://www.oracle-developer.net/display.php?id=422

How to loop through columns in an oracle pl/sql cursor

如何使用user_tab_cols动态创建单个语句  然后交叉连接表并添加每个列比较的结果

... e.g。

CREATE OR REPLACE PROCEDURE make_classification (sampletable VARCHAR2, ruletable VARCHAR2)
AS
   l_query          VARCHAR2 (10000) := '';
   right            NUMBER           := 0;
   wrong            NUMBER           := 0;
   l_number_of_columns NUMBER :=0;
   TYPE cur_typ IS REF CURSOR;
   c cur_typ;

BEGIN

    l_query:='SELECT ';
    FOR rec in (SELECT column_name FROM user_tab_cols  WHERE table_name=UPPER(ruleTable))
    LOOP
        IF l_number_of_columns > 0 THEN 
            l_query:=l_query||'+';
        END IF;    
        l_query:=l_query||'DECODE(t1.'||rec.column_name||',t2.'||rec.column_name||',1,0)';
        l_number_of_columns :=l_number_of_columns +1; 
    END LOOP;   

    l_query := l_query || ' AS cnt FROM '||ruletable||' t1,'|| sampletable || ' t2';

    --DBMS_OUTPUT.put_line (l_query);

    OPEN c FOR l_query;
    LOOP
        FETCH c INTO right;
        DBMS_OUTPUT.put_line ('right: ' || to_char(right) || ';  wrong: ' || to_char(l_number_of_columns-right));
        EXIT WHEN c%NOTFOUND;        
    END LOOP;
    CLOSE c;       
END;

答案 1 :(得分:1)

如果您使用的是11g,我会考虑使用UNPIVOT运算符将您的表格变为300列,每个条目包含300行(总共1723 * 300行)。然后使用COUNT确定正确和错误答案的数量。然后你可以回头,所以你有一个对与错的专栏。

因为你有这么多列,你可以使用PL / SQL程序来创建初始SQL查询,但我不会每次都使用动态SQL来运行它。