我正在编写一个从简单文本文件中读取一些数据的应用程序。数据文件, 我感兴趣的是,有以下形式的行:
Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54
因此,正如您所理解的那样,每一行的模式都类似于
(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*
就像我在字符序列“Mem”之前有任意数量的空格,然后是 左括号。然后,有一个数字和一个右括号。之后,在遇到'='(等于)字符之前,有任意数量的空格。然后,任意数量的空格,直到我遇到(可能)浮点数。
如何在C ++正则表达式模式中表达?我对C ++中的正则表达式概念很陌生,所以我需要一些帮助。
谢谢
答案 0 :(得分:22)
首先,请记住#include <regex>
。
C ++ std::regex_match
的工作方式与其他语言中的正则表达式类似。
让我们从一个简单的例子开始:
std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;
在这种情况下,我们的正则表达式为^Mem\([0-9]+\)=[0-9]+$
。
我们来看看它的作用:
^
告诉C ++这是行开始的地方,因此AMem(1)=2
不应该匹配。$
告诉C ++这是行结束的地方,因此Mem(1)=2x
不应该匹配。\\(
是一个文字(
字符。 (
在正则表达式中具有非常特殊的含义,因此我们将它转义为\(
。但是,\
字符在C ++字符串中具有特殊含义,因此我们使用\\(
告诉C ++将\(
传递给正则表达式引擎。[0-9]
匹配一个数字。 \\d
也应该有效,但then again maybe not。[0-9]+
表示至少一个数字。如果Mem()
可以接受,请改用[0-9]*
。正如您所看到的,这就像您在其他语言(例如Java或C#)中找到的正则表达式一样。
现在,要考虑空格,请使用std::regex regex("^\\s*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+\\s*$");
请注意,\s
包含\t
,因此无需同时指定两者。如果没有,则使用(\s|\t)
或[\s\t]
,而不是(\s,\t)
。
最后,要包含浮点数,我们首先需要考虑Mem(1) = 1.
(即一个没有数字的点)是否可以接受。
如果不是,那么.23
中的1.23
可选。在正则表达式中,我们使用?
来表示。
std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");
请注意,我们使用\.
而非.
。 .
在正则表达式中具有特殊含义 - 它匹配任何字符 - 因此我们需要将其转义。
如果您的编译器支持原始字符串(例如Visual Studio 2013,GCC 4.5,Clang 3.0),则可以简化正则表达式字符串:
std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")
要提取有关匹配字符串的信息,您可以使用std::smatch
和组。
让我们从一个小小的变化开始:
std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;
std::cout << std::regex_match(str, m, regex) << std::endl;
注意三件事:
smatch
。该类存储有关匹配的额外结果信息。[0-9]*
附近添加了额外的括号。这定义了一个组。组告诉正则表达式引擎跟踪其中的任何内容。非常重要的是定义组的括号不会转义,因为我们不希望它们与实际的括号字符匹配。我们实际上想要特殊的正则表达式。
现在我们有了这些组,我们可以使用它们:
for (auto result : m) {
std::cout << result << std::endl;
}
这将首先打印整个字符串,然后打印Mem()
中的数字,然后打印最终数字。
换句话说,m[0]
为我们提供了整个匹配,m[1]
为我们提供了第一组,m[2]
为我们提供了第二组,m[3]
为我们提供了第三组如果我们有一个小组。