Question

我正在编写一个从简单文本文件中读取一些数据的应用程序。数据文件，我感兴趣的是，有以下形式的行：

Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54

因此，正如您所理解的那样，每一行的模式都类似于

(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*

就像我在字符序列“Mem”之前有任意数量的空格，然后是左括号。然后，有一个数字和一个右括号。之后，在遇到'='（等于）字符之前，有任意数量的空格。然后，任意数量的空格，直到我遇到（可能）浮点数。

如何在C ++正则表达式模式中表达？我对C ++中的正则表达式概念很陌生，所以我需要一些帮助。

谢谢

Answer 1

首先，请记住#include <regex>。

C ++ std::regex_match的工作方式与其他语言中的正则表达式类似。

让我们从一个简单的例子开始：

std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;

在这种情况下，我们的正则表达式为^Mem$[0-9]+$=[0-9]+$。我们来看看它的作用：

开头的^告诉C ++这是行开始的地方，因此AMem(1)=2不应该匹配。
最后的$告诉C ++这是行结束的地方，因此Mem(1)=2x不应该匹配。
\\(是一个文字(字符。 (在正则表达式中具有非常特殊的含义，因此我们将它转义为\(。但是，\字符在C ++字符串中具有特殊含义，因此我们使用\\(告诉C ++将\(传递给正则表达式引擎。
[0-9]匹配一个数字。 \\d也应该有效，但then again maybe not。
[0-9]+表示至少一个数字。如果Mem()可以接受，请改用[0-9]*。

正如您所看到的，这就像您在其他语言（例如Java或C＃）中找到的正则表达式一样。

现在，要考虑空格，请使用std::regex regex("^\\s*Mem\$[0-9]+\$\\s*=\\s*[0-9]+\\s*$");

请注意，\s包含\t，因此无需同时指定两者。如果没有，则使用(\s|\t)或[\s\t]，而不是(\s,\t)。

最后，要包含浮点数，我们首先需要考虑Mem(1) = 1.（即一个没有数字的点）是否可以接受。

如果不是，那么.23中的1.23 可选。在正则表达式中，我们使用?来表示。

std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");

请注意，我们使用\.而非.。 .在正则表达式中具有特殊含义 - 它匹配任何字符 - 因此我们需要将其转义。

如果您的编译器支持原始字符串（例如Visual Studio 2013，GCC 4.5，Clang 3.0），则可以简化正则表达式字符串：

std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")

要提取有关匹配字符串的信息，您可以使用std::smatch和组。

让我们从一个小小的变化开始：

std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;

std::cout << std::regex_match(str, m, regex) << std::endl;

注意三件事：

我们添加了smatch。该类存储有关匹配的额外结果信息。
我们在[0-9]*附近添加了额外的括号。这定义了一个组。组告诉正则表达式引擎跟踪其中的任何内容。
浮点数附近有更多括号。这定义了第二组。

非常重要的是定义组的括号不会转义，因为我们不希望它们与实际的括号字符匹配。我们实际上想要特殊的正则表达式。

现在我们有了这些组，我们可以使用它们：

for (auto result : m) {
    std::cout << result << std::endl;
}

这将首先打印整个字符串，然后打印Mem()中的数字，然后打印最终数字。

换句话说，m[0]为我们提供了整个匹配，m[1]为我们提供了第一组，m[2]为我们提供了第二组，m[3]为我们提供了第三组如果我们有一个小组。

解析数据的正则表达式

1 个答案: