比较C优化中匹配的2个字符串数组

时间:2014-02-21 00:28:14

标签: c perl inline-c

我有一个perl脚本,它有2个数组,1个带键,1个带子串。 我需要检查1个数组的子串是否在keys数组中匹配。 记录的数量是巨大的,可以用数百万计算,所以我使用Inline:C来加速搜索,但是仍然需要花费数小时来处理记录。

- Perl部分

//%h contains {"AAAAA1" => 1, "BBBBBB" => 1, "BB1234" =>1, "C12345" => 1.... }
my @k=sort keys %h;
//@k contains ["AAAAA1", "BBBBBB", "BB1234", "C12345".... ]
my @nn;
//@n contains [ "AAAAA1999", "AAAAABBB134", "D123edae", "C12345CCSAER"]
// "AAAAA1" (from @k) can be found in "AAAAA1999" (in @n) = OK
foreach(@n) {
        my $res=array_search(\@k,$_);
        if($res) {
                $y++;
        } else {
                $z++;
                push @nn,$_;
        }
}

- C部分

int fastcmp ( char *p1, char *p2 ) {
  while( *p1 ){
    char *a = p1, *b = p2;    
    if (*b != *a) return 0;
    ++p1; ++b;
  }
  return 1;
}

int array_search(AV *a1, SV *s1){
        STRLEN bytes1;
        char *p1,*p2,*n;
        long a1_size,i,c;
        a1_size = av_len(a1);
        p1 = SvPV(s1,bytes1);        
        for(i=start;i<=a1_size;++i){
            SV** elem = av_fetch(a1, i, 0);
            SV** elem_next = (i<a1_size-1)?av_fetch(a1, i+1, 0):elem;
            p2 = SvPV_nolen (*elem);
            n = SvPV_nolen (*elem_next);
            if (p1[0] == p2[0]) {
                if (fastcmp(p1,p2)>0) {
                    return i; 
                }
            }
            if ((p1[0] == p2[0]) && (p2[0] != n[0])) { return -1; }
        }
        return -1;
}

如果有人可以帮助优化搜索,那可能会很好。 感谢。

注意:添加注释以帮助解决每个变量中的内容。

1 个答案:

答案 0 :(得分:2)

您实施的方式在很多方面都失败了:

  • @a=chr(0xE9); utf8::upgrade($x=$a[0]); array_search(\@a, $x);
  • 失败
  • "abc"=~/(.*)/; array_search(["abc"], $1);
  • 失败
  • array_search(["a\0b"], "a\0c");
  • 失败

它也错误地认为字符串是空终止的,当它们不存在时会导致SEGFAULT。


您的方法会针对@k的每个元素扫描@n,但如果您构建了一个特里(如下面的代码所示),则可以扫描一次。

my $alt = join '|', map quotemeta, keys %h;
my $re = qr/^(?:$alt)/;

my @nn = sort grep !/$re/, @n;
my $z = @nn;
my $y = @n - @nn;

例如,如果有1,000 Ns和1,000 Hs,那么您的解决方案最多可进行1,000,000次比较,而我的解决方案可进行1,000次比较。

请注意,将变换的正则表达式优化为trie需要5.10+。 Regexp :: List可用于旧版本。

正确的C实现会更快一些,因为你可以使用一个函数来执行搜索,而不是使用正则表达式引擎。