我有一个函数试图将给定的字符串与给定的正则表达式模式匹配。如果它不匹配,它应该创建一个指示这种情况的字符串,并包括它失败的正则表达式模式和字符串的内容。类似的东西:
px
然而,正如您所看到的,注释掉的行提出了一个挑战:是否可以恢复正则表达式对象的原始模式?
显然有一种解决方法是提供原始模式字符串(而不是或旁边)正则表达式对象然后使用它。但是我当然希望不需要包含额外的工作来在每次调用这个函数时重新创建正则表达式对象(每次调用函数时重新定位模式中的成本)或者将正则表达式模式与正则表达式对象(容易出现拼写错误和错误,除非我提供一个包装器来为我做这个,这不方便)。
我在Ubuntu 14.04上使用GCC 4.9.2。
答案 0 :(得分:8)
boost::basic_regex
个对象具有str()
函数,该函数返回用于构造正则表达式的字符串的(副本)。 (它们还提供begin()
和end()
接口,它们将迭代器返回到字符序列,以及内省捕获子表达式的机制。)
这些接口在最初的TR1正则表达式标准化提案中,但在采用n1499: Simplifying Interfaces in basic_regex后于2003年删除,我引用它:
basic_regex不应保留其初始化程序的副本
basic_regex
模板有一个成员函数str
,它返回一个字符串对象,该对象包含用于初始化basic_regex
对象的文本...虽然查看初始化程序可能偶尔会有用如果您不使用它,我们应该应用您不支付的规则。正如fstream
个对象不带有它们打开的文件名一样,basic_regex
个对象不应随身携带它们的初始化文本。如果有人需要跟踪该文本,他们可以编写一个包含文本和basic_regex
对象的类。
答案 1 :(得分:6)
根据标准N4431 §28.8/ 2类模板basic_regex [re.regex](强调我的):
basic_regex
类型特化的对象负责转换charT
个对象的序列 内部代表。未指定此表示形式采用何种形式,以及如何访问它 对正则表达式进行操作的算法。 [注意:实现通常会将某些函数模板声明为basic_regex
的朋友,以实现此 - 结束注释]
因此,basic_regex
对象不需要在内部保留原始字符序列。
因此,您必须在创建regex
时存储字符序列。例如:
struct RegexPattern {
std::string pattern;
std::regex reg;
};
...
bool validate_content(const std::string & str, const RegexPattern & pattern, std::vector<std::string> & errors) {
if(false == std::regex_match(str, pattern.reg)) {
std::stringstream error_str;
error_str << "Pattern match failure: " << pattern.pattern << ", content: " << str;
errors.push_back(error_str.str());
return false;
}
return true;
}
@Praetorian提出的另一个更优雅的解决方案,但效率稍低(我没有对两个版本进行基准测试,因此我不确定)。将保留模式字符串并将其作为输入参数传递给函数validate_content
并在内部创建regex
对象,如下所示:
bool validate_content(const std::string & str, const string & pattern, std::vector<std::string> & errors) {
std::regex reg(pattern);
if(false == std::regex_match(str, reg)) {
std::stringstream error_str;
error_str << "Pattern match failure: " << pattern << ", content: " << str;
errors.push_back(error_str.str());
return false;
}
return true;
}