Question

我正在编写一个标识符解析器，它解析一个不是关键字的字母字符串。关键字都在表格中：

struct keywords_t : x3::symbols<x3::unused_type> {
    keywords_t() {
        add("for", x3::unused)
                ("in", x3::unused)
                ("while", x3::unused);
    }
} const keywords;

并且标识符的解析器应为：

auto const identifier_def =       
            x3::lexeme[
                (x3::alpha | '_') >> *(x3::alnum | '_')
            ];

现在我尝试将这些组合在一起，因此标识符解析器在解析关键字时失败。我试过这样的话：

auto const identifier_def =       
                x3::lexeme[
                    (x3::alpha | '_') >> *(x3::alnum | '_')
                ]-keywords;

和此：

auto const identifier_def =       
                x3::lexeme[
                    (x3::alpha | '_') >> *(x3::alnum | '_') - keywords
                ];

它适用于大多数输入，但如果字符串以类似int, whilefoo, forbar之类的关键字开头，则解析器无法解析此字符串。我怎样才能使这个解析器正确？

Answer 1

你的问题是由Spirit中差异运算符的语义引起的。如果您有a - b Spirit，请执行以下操作：

检查b是否匹配：
- 如果确实如此，a - b失败并且没有解析任何内容。
- 如果b失败，则检查a是否匹配：
  - 如果a失败，a - b将失败并且无法解析任何内容。
  - 如果a成功，a - b成功并解析任何a解析。

在您的情况下（unchecked_identifier - keyword），只要标识符以关键字开头，keyword就会匹配，您的解析器就会失败。因此，每当传递一个不同的关键字时，您需要将keyword与匹配的内容进行交换，但只要关键字后跟其他内容，就会失败。 not predicate（!）可以提供帮助。

auto const distinct_keyword = x3::lexeme[ keyword >> !(x3::alnum | '_') ];

完整样本（Running on Coliru）：

//#define BOOST_SPIRIT_X3_DEBUG
#include <iostream>
#include <boost/spirit/home/x3.hpp>

namespace parser {
    namespace x3 = boost::spirit::x3;

    struct keywords_t : x3::symbols<x3::unused_type> {
        keywords_t() {
            add("for", x3::unused)
                    ("in", x3::unused)
                    ("while", x3::unused);
        }
    } const keywords;

    x3::rule<struct identifier_tag,std::string>  const identifier ("identifier");

    auto const distinct_keyword = x3::lexeme[ keywords >> !(x3::alnum | '_') ];
    auto const unchecked_identifier = x3::lexeme[(x3::alpha | x3::char_('_')) >> *(x3::alnum | x3::char_('_'))];


    auto const identifier_def = unchecked_identifier - distinct_keyword;

    //This should also work:
    //auto const identifier_def = !distinct_keyword >> unchecked_identifier


    BOOST_SPIRIT_DEFINE(identifier);

    bool is_identifier(const std::string& input)
    {
        auto iter = std::begin(input), end= std::end(input);

        bool result = x3::phrase_parse(iter,end,identifier,x3::space);

        return result && iter==end;
    }
}



int main() {

    std::cout << parser::is_identifier("fortran") << std::endl;
    std::cout << parser::is_identifier("for") << std::endl;
    std::cout << parser::is_identifier("integer") << std::endl;
    std::cout << parser::is_identifier("in") << std::endl;
    std::cout << parser::is_identifier("whileechoyote") << std::endl;
    std::cout << parser::is_identifier("while") << std::endl;
}

Answer 2

问题是，这没有词法分析器，也就是说，如果你写

keyword >> *char_

并放入whilefoo，它会将while解析为keyword，将foo解析为*char_。

您可以通过两种方式防止这种情况：要么在关键字后面留一个空格，即

auto keyword_rule = (keyword >> x3::space);
//or if you use phrase_parse
auto keyword_rule = x3::lexeme[keyword >> x3::space];

您所描述的另一种方式也是可能的，即明确地从字符串中删除关键字（我这样做）：

auto string = x3::lexeme[!keyword >> (x3::alpha | '_') >> *(x3::alnum | '_')];

您的定义存在的问题是，它会将第一组字符解释为关键字，从而选择根本不解析它。＆＃39; x-y＆＃39;运算符意味着，解析x，但不解析y。但如果你通过＆＃39; whilefoo＆＃39;它将解释＆＃39;而＃39;作为关键字，因此根本不解析。

解析除关键字之外的标识符

2 个答案: