在C ++中减少std :: regex编译时间

时间:2017-01-25 20:36:51

标签: c++ regex c++11

我使用std::regex r("-?[0-9]*(.[0-9]+)?(e-?[0-9]+)?")来验证数字(整数/固定点/浮点数)。 MWE如下:

#include <iostream>
#include <string>
#include <vector>
#include <regex>
#include <algorithm>

using namespace std;

bool isNumber(string s) {
  // can ignore all whitespace
  s.erase(remove(s.begin(), s.end(), ' '), s.end());
  std::regex r("-?[0-9]*(.[0-9]+)?(e-?[0-9]+)?");
  return regex_match(s, r);
}

int main() {
  std::vector<string> test{
    "3", "-3", // ints
      "1 3", " 13", " 1 3 ", // weird spacing
      "0.1", "-100.123123", "1000.12312", // fixed point
      "1e5", "1e-5", "1.5e-10", "1a.512e4", // floating point
      "a", "1a", "baaa", "1a", // invalid
      "1e--5", "1e-", //invalid
      };

  for (auto t : test) {
    cout.width(20); cout << t << " " << isNumber(t) << endl;
  }

  return 0;
}

我注意到与我期望的相比,编译时间非常大:

  • gcc 5.4 -O0 -std=c++11,2.3秒
  • gcc 5.4 -O2 -std=c++11,3.4秒
  • clang++ 3.8 -O0 -std=c++11,1.8秒
  • clang++ 3.8 -O2 -std=c++11,3.7秒

我将此用于在线评审提交,在编译阶段有时间限制。

所以,这些客观的问题:

  • 为什么编译时间这么大?我的印象是当我在vim / emacs / grep / ack / ag等中使用正则表达式时(在同一台机器上)编译确实比这还要少很多。
  • 有没有办法减少C ++中正则表达式的编译时间?

1 个答案:

答案 0 :(得分:1)

你可以通过适当地转义小数点来减轻你的正则表达式的计算量:-?[0-9]*(\.[0-9]+)?(e-?[0-9]+)?这当然会阻止你在数字上返回误报:“1 3”(不要担心这是这是2个数字的一​​件好事。)但在这种情况下,以及许多其他人,当你弯腰使用正则表达式"Now you have 2 problems"时。

使用istringstream将为此问题提供更专业,更强大的解决方案:

bool isNumber(const string& s) {
    long double t;
    istringstream r(s);

    return r >> t >> ws && r.eof();
}

Live Example