解析一个字符串(带空格)但忽略(Spirit)末尾的空格

时间:2012-01-31 04:52:04

标签: c++ string parsing boost-spirit

我有一个我正在尝试解析的输入字符串。它可能看起来像两者之一:

sys(error1, 2.3%)
sys(error2 , 2.4%)
sys(this error , 3%)

请注意逗号之前的空格。在我的语法(boost精神库)中,我想分别捕获“error1”,“error2”和“this error”。

这是我必须捕获的原始语法 - 它吸收了名称末尾的空格:

name_string %= lexeme[+(char_ - ',' - '"')];
name_string.name("Systematic Error Name");

start = (lit("sys")|lit("usys")) > '('
  > name_string[boost::phoenix::bind(&ErrorValue::SetName, _val, _1)] > ','
  > errParser[boost::phoenix::bind(&ErrorValue::CopyErrorAndRelative, _val, _1)]
  > ')';

我首先尝试解决这个问题:

name_string %= lexeme[*(char_ - ',' - '"') > (char_ - ',' - '"' - ' ')];
然而,这完全失败了。看起来很难解析任何中间有空格的东西。

我对Spirit很新 - 所以也许我错过了一些简单的东西。看起来lexeme关闭了在前沿上跳过 - 我需要在前沿和后缘上执行此操作。

提前感谢您的帮助!

感谢下面的psur,我能够得到答案。它并不完美(见下文),但我想我会更新帖子,让大家在上下文中看到它并且格式很好:

qi::rule<Iterator, std::string(), ascii::space_type> name_word;
qi::rule<Iterator, std::string(), ascii::space_type> name_string;
ErrorValueParser<Iterator> errParser;

name_word %= +(qi::char_("_a-zA-Z0-9+"));
//name_string %= lexeme[name_word >> *(qi::hold[+(qi::char_(' ')) >> name_word])];

name_string %= lexeme[+(qi::char_("-_a-zA-Z0-9+")) >> *(qi::hold[+(qi::char_(' ')) >> +(qi::char_("-_a-zA-Z0-9+"))])];

start = (
         lit("sys")[bind(&ErrorValue::MakeCorrelated, _val)]
         |lit("usys")[bind(&ErrorValue::MakeUncorrelated, _val)]
         )
  >> '('
  >> name_string[bind(&ErrorValue::SetName, _val, _1)] >> *qi::lit(' ')
  >> ','
  >> errParser[bind(&ErrorValue::CopyErrorAndRelative, _val, _1)]
  >> ')';

这个有效!它们的关键是name_string,其中qi :: hold是我之前不熟悉的运算符。这几乎就像一个子规则:qi :: hold [...]内的所有内容都必须成功解析它才能运行。所以,在上面,如果下面有另一个单词,它只允许一个单词后面的空格。结果是,如果一系列单词以空格结尾,则不会解析那些最后的空格!它们可以被后面的* qi :: lit('')吸收(参见开始规则)。

有两件事我想知道如何在这里改进:

  • 将实际的字符串解析放入name_word会很好。问题是name_word的声明 - 当它被放入name_string定义中的适当位置时失败。

  • 如果name_string可以包含对尾随空格的解析,那会更好,尽管它的返回值没有。我想我知道怎么做......

当/如果我想出这些,我会更新这篇文章。谢谢你的帮助!

1 个答案:

答案 0 :(得分:2)

以下规则适合您:

name_word %= +(qi::char_("_a-zA-Z0-9"));

start %= qi::lit("sys(")
  >> qi::lexeme[ name_word >> *(qi::hold[ +(qi::char_(' ')) >> name_word ]) ]
  >> *qi::lit(' ')
  >> qi::lit(',')
  // ...

name_word只解析名字中的一个单词;我假设它只包含字母,数字和下划线。

start规则中qi::hold很重要。仅当next为name_word时才会解析空间。在其他情况下,解析器将回滚并移至*qi::lit(' '),然后移至逗号。