只用一个正则表达式进行多次替换

时间:2015-12-10 09:37:43

标签: regex pcre

我们假设,为简单起见,我们有以下字符串:

"约翰爱玛丽,玛丽喜欢杰克而杰克并不关心约翰和玛丽。"

假设我想使用正则表达式来改变那个故事的角色。

约翰 - >约瑟夫

玛丽 - >杰西卡

杰克 - >基思

当然,我可以一次改变其中一个。

但是我想知道是否可以通过一次正则表达式替换来改变所有这些,例如"多次替换"或"有条件的替换"。

类似的东西:

正则表达式:(?:(?<name1>John)|(?<name2>Mary)|(?<name3>Jake))

替换:(?(name1)Joseph|(?(name2)Jessica|(?(name3)Keith)))

这只是一个简单的例子。

在我的应用程序中,我必须为每个字符串执行大约20次替换,这会影响应用程序的性能。

我使用的正则表达式是PCRE。

使用带有Qt框架的C ++编写应用程序。

1 个答案:

答案 0 :(得分:2)

所以你正在使用所谓的 PCRE风味。很好,除了这并没有说明你正在使用哪个库。我们在这里回顾几个选项,因为有几个不同的库声称与Perl兼容。

升压

这是最简单的解决方案。 boost::regex通过Boost-Extended Format String Syntax确切支持您所要求的内容。

所以你可以替换模式:

(?<name1>John)|(?<name2>Mary)|(?<name3>Jake)

使用替换字符串:

(?{name1}Joseph:(?{name2}Jessica:Keith))

当然,它有效。您可以在Notepad ++中测试它,但这里有一些示例代码:

#include <string>
#include <iostream>
#include <boost/regex.hpp>

int main(int argc, char **argv) {
    std::string subject("John loves Mary, Mary loves Jake and Jake doesn't care about John and Mary.");
    const char* replacement = "(?{name1}Joseph:(?{name2}Jessica:Keith))";

    boost::regex re("(?<name1>John)|(?<name2>Mary)|(?<name3>Jake)", boost::match_perl);

    std::string result = boost::regex_replace(subject, re, replacement, boost::format_all);
    std::cout << result << std::endl;

    return 0;
}

PCRE2

使用Boost的PCRE catched up,并通过PCRE2_SUBSTITUTE_EXTENDED引入了更丰富的替换语法。截至本文(v10.20),此代码尚未发布,但它在源存储库(修订版381)中可用,因此如果您现在需要此解决方案,则必须从源代码构建PCRE2。

模式相同但替换字符串的语法不同:

${name1:+Joseph:${name2:+Jessica:Keith}}

以下是一些示例C代码:

#include <stdio.h>
#include <string.h>

#define PCRE2_CODE_UNIT_WIDTH 8
#include <pcre2.h>

int main(int argc, char **argv) {
    int error;
    PCRE2_SIZE erroffset;

    const PCRE2_SPTR pattern = (PCRE2_SPTR)"(?<name1>John)|(?<name2>Mary)|(?<name3>Jake)";
    const PCRE2_SPTR subject = (PCRE2_SPTR)"John loves Mary, Mary loves Jake and Jake doesn't care about John and Mary.";
    const PCRE2_SPTR replacement = (PCRE2_SPTR)"${name1:+Joseph:${name2:+Jessica:Keith}}";

    pcre2_code *re = pcre2_compile(pattern, PCRE2_ZERO_TERMINATED, 0, &error, &erroffset, 0);
    if (re == 0)
        return 1;

    pcre2_jit_compile(re, PCRE2_JIT_COMPLETE);

    PCRE2_UCHAR output[1024] = "";
    PCRE2_SIZE outlen = sizeof(output) / sizeof(PCRE2_UCHAR);

    int rc = pcre2_substitute(re, subject, PCRE2_ZERO_TERMINATED, 0, PCRE2_SUBSTITUTE_GLOBAL | PCRE2_SUBSTITUTE_EXTENDED, 0, 0, replacement, PCRE2_ZERO_TERMINATED, output, &outlen);
    if (rc >= 0)
        printf("%s\n", output);

    pcre2_code_free(re);
    return 0;
}

PCRE

使用PCRE(&lt; v10),你运气不好。它没有替换功能,这是留给开发人员的。

...这意味着如果那是你正在使用的库,那么无论如何你都可以完全控制替换过程。您可以使用以下模式:

John(*MARK:1)|Mary(*MARK:2)|Jake(*MARK:3)

然后,通过区分最后遇到的MARK来替代。

Qt的

Qt的QRegularExpression类封装了PCRE库(不是PCRE2),但它似乎没有公开所有PCRE功能。

无论如何,接受QRegularExpression的{​​{3}}看起来并不完整:

QString & QString::replace(const QRegularExpression & re, const QString & after)

所以你在这里独自一人。

我的2美分

嘿,也许是为了这么简单的替换,正则表达式有点过分......如果遇到性能问题,你应该尝试手工实现这些替换 - 精心设计的算法应该比正则表达式解决方案更快。只需确保描述您的代码并查看罪魁祸首。