Linux C LibPCRE输出独特的结果

时间:2014-02-08 17:35:50

标签: c regex pcre

我有以下代码与包含多个重复项的字符串中的REGEX匹配,我想要做的是只打印出唯一匹配,我该怎么办?添加到数组而不是使其唯一,然后才打印出结果?谢谢!

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <pcre.h>

int main() {
  pcre *myregexp;
  const char *error;
  int erroroffset;
  int offsetcount;
  int offsets[(0+1)*3]; // (max_capturing_groups+1)*3
  const char *result;
  char *subject = "9,5,3,2,5,6,3,2,5,6,3,2,2,2,5,0,5,5,6,6,1,";
  myregexp = pcre_compile("\\d,", PCRE_MULTILINE|PCRE_DOTALL|PCRE_NEWLINE_ANYCRLF, &error, &erroroffset, NULL);

  if (myregexp != NULL) {
    offsetcount = pcre_exec(myregexp, NULL, subject, strlen(subject), 0, 0, offsets, (0+1)*3);

    while (offsetcount > 0) {

      if (pcre_get_substring(subject, offsets, offsetcount, 0, &result) >= 0) {
        printf("%s\n", result);
      }

      offsetcount = pcre_exec(myregexp, NULL, subject, strlen(subject), offsets[1], 0, offsets, (0+1)*3);
    }

  } else {
      printf("Syntax error in REGEX at erroroffset\n");
  }

}

输出:

bash$ ./regex
9,
5,
3,
2,
5,
6,
3,
2,
5,
6,
3,
2,
2,
2,
5,
0,
5,
5,
6,
6,
1,

我需要:

bash$ ./regex
0,
1,
2,
3,
5,
6,
9,

1 个答案:

答案 0 :(得分:1)

是的,添加到数组并从那里进行重复数据删除。

您无法使用正则表达式搜索唯一值。您可以使用正则表达式搜索替换并重复删除一些内容,例如双重换行,多个空格等等,但是当重复数据删除需要使用随机搜索时,这不起作用。

以下是deduplicate: a -> b

的示例
#include <stdio.h>
#include <string.h>    
main()
{
    char *a[5];
    int a_len = 5;

    a[0] = "a";
    a[1] = "b";
    a[2] = "b";
    a[3] = "a";
    a[4] = "c";

    char *b[a_len];
    int b_len = 0;

    int already_exists;
    int i, j;
    for (i = 0; i < a_len; i++) 
    {
        already_exists = 0;
        for ( j = 0; j < b_len; j++)
        {
            if (!strcmp(a[i], b[j]))
            {
                already_exists = 1;
                break;
            }
        }

        if (!already_exists)
        {
            b[b_len] = a[i];
            b_len++;
        }
    }

    for (i = 0; i < b_len; i++) 
    {
        printf("%s", b[i]);
    }
}

对于这些小型阵列,这可能是最快的算法。为了在更大的阵列上获得更好的性能,我建议在排序数组上进行重复数据删除。