有没有一种方法可以轻松调整ANTLR4的错误消息?

时间:2019-09-19 12:31:09

标签: java antlr antlr4

Currenlty我正在研究自己的语法,我想在NoViableAlternativeInputMismatchUnwantedTokenMissingToken和{{1} }。

我已经扩展了LexerNoViableAltException并覆盖了Lexer.class,将默认错误消息notifyListeners更改为我自己的错误消息。同样,我扩展了token recognition error at:并覆盖了所有报告方法,例如DefaultErrorStrategyreportNoViableAlternativereportInputMismatchreportUnwantedToken

所有这些操作的目的是更改消息,这些消息将传递给侦听器reportMissingToken的{​​{1}}方法。

这是扩展syntaxError()的一个小例子:

ANTLRErrorListener

或者用于Lexer.class

    @Override
    public void notifyListeners(LexerNoViableAltException lexerNoViableAltException) {
        String text = this._input.getText(Interval.of(this._tokenStartCharIndex, this._input.index()));
        String msg = "Operator " + this.getErrorDisplay(text) + " is unkown.";
        ANTLRErrorListener listener = this.getErrorListenerDispatch();
        listener.syntaxError(this, null, this._tokenStartLine, this._tokenStartCharPositionInLine, msg,
            lexerNoViableAltException);
    }

所以我读了这个线程Handling errors in ANTLR4 并且想知道在定制方面是否没有更简单的解决方案?

2 个答案:

答案 0 :(得分:4)

我改善ANTLR4错误消息的策略有些不同。我在错误侦听器中使用了syntaxError覆盖(我对词法分析器和解析器都有一个覆盖)。通过使用给定的值和其他一些诸如LL1Analyzer之类的东西,您可以创建非常精确的错误消息。 lexer error listener的处理非常简单(希望您可以理解C ++代码):

void LexerErrorListener::syntaxError(Recognizer *recognizer, Token *, size_t line,
                                     size_t charPositionInLine, const std::string &, std::exception_ptr ep) {
  // The passed in string is the ANTLR generated error message which we want to improve here.
  // The token reference is always null in a lexer error.
  std::string message;
  try {
    std::rethrow_exception(ep);
  } catch (LexerNoViableAltException &) {
    Lexer *lexer = dynamic_cast<Lexer *>(recognizer);
    CharStream *input = lexer->getInputStream();
    std::string text = lexer->getErrorDisplay(input->getText(misc::Interval(lexer->tokenStartCharIndex, input->index())));
    if (text.empty())
      text = " "; // Should never happen.

    switch (text[0]) {
      case '/':
        message = "Unfinished multiline comment";
        break;
      case '"':
        message = "Unfinished double quoted string literal";
        break;
      case '\'':
        message = "Unfinished single quoted string literal";
        break;
      case '`':
        message = "Unfinished back tick quoted string literal";
        break;

      default:
        // Hex or bin string?
        if (text.size() > 1 && text[1] == '\'' && (text[0] == 'x' || text[0] == 'b')) {
          message = std::string("Unfinished ") + (text[0] == 'x' ? "hex" : "binary") + " string literal";
          break;
        }

        // Something else the lexer couldn't make sense of (likely there is no rule that accepts this input).
        message = "\"" + text + "\" is no valid input at all";
        break;
    }
    owner->addError(message, 0, lexer->tokenStartCharIndex, line, charPositionInLine,
                    input->index() - lexer->tokenStartCharIndex);
  }
}

此代码显示我们根本不使用原始消息,而是检查令牌文本以查看出了什么问题。在这里,我们主要处理未封闭的字符串:

enter image description here

parser error listener非常复杂,而且太大,无法在此处发布。结合了不同来源来构造实际的错误消息:

  • Parser.getExpectedTokens():使用LL1Analyzer从ATN中的给定位置(称为跟随集)获取下一个可能的词法分析器令牌。但是,它会通过谓词进行查找,这可能是个问题(如果使用这样的谓词)。

  • 标识符和关键字:在特定情况下,通常允许某些关键字作为常规标识符,这会创建带有关键字实际上是标识符的列表的跟随集,因此需要额外检查以避免显示它们如预期值:

enter image description here

  • 解析器规则调用堆栈,在调用错误侦听器期间,解析器具有当前解析器规则上下文(Parser.getRuleContext()),您可以使用该上下文来遍历调用堆栈,以查找可提供以下内容的规则上下文您将获得有关错误位置的更具体的信息(例如,从*匹配到假设的expr规则将告诉您此时实际上是期望的表达式)。

  • 给定的异常:如果为null,则错误是有关丢失或不需要的单个令牌的,这很容易处理。如果异常具有值,则可以检查它以获取更多详细信息。这里值得一提的是,不使用异常的内容(无论如何都是稀疏的),而是使用先前收集的值。最常见的异常类型是NoViableAltInputMismatch,当错误位置为EOF或“输入在此位置无效”之类的东西时,它们都可以转换为“输入不完整”。然后,可以通过根据上面提到的(和图像中所示)的规则调用堆栈和/或后续集合构造的期望来增强两者。

答案 1 :(得分:0)

经过研究,我想出了另一种解决方案。在9.4章的“权威ANTLR4参考”一书中,他们解释了如何使用错误替代:

fcall
: ID '(' expr ')'
| ID '(' expr ')' ')' {notifyErrorListeners("Too many parentheses");}
| ID '(' expr         {notifyErrorListeners("Missing closing ')'");}
;
  

这些错误替代方法可以使ANTLR生成的解析器正常工作   在替代品之间进行选择有点困难,但它们却没有   混淆解析器的方式。

我将其调整为适合自己的语法,并扩展了BaseErrorListener。传递给notifyErrorListener的Exception为null(来自Parser.class):

public final void notifyErrorListeners(String msg) {
    this.notifyErrorListeners(this.getCurrentToken(), msg, (RecognitionException)null);
}

因此在BaseErrorListener扩展名中进行了处理,如下所示:

if (recognitionException instanceof LexerNoViableAltException) {
    message = handleLexerNoViableAltException((Lexer) recognizer);
} else if (recognitionException instanceof InputMismatchException) {
    message = handleInputMismatchException((CommonToken) offendingSymbol);
} else if (recognitionException instanceof NoViableAltException) {
    message = handleNoViableAltException((CommonToken) offendingSymbol);
} else if (Objects.isNull(recognitionException)) {
// Handle Errors specified in my grammar
    message = msg;
} else {
    message = "Can't be resolved";
}

我希望能有所帮助