Question

我正在构建一个编译器。其中一些规范如下：

字符串文字用美元符号（“$”）括起来 - 例如。 $ string sample $
评论用“*”括起来 - 例如。 *样本评论*
评论可能存在于操作之间的任何地方 - 例如。 4 + *样本评论* 5 - （这是不允许的）

现在我必须拆分源代码行来对其进行标记。示例案例：

PRINT $ THE FLOAT IS $ * DISPLAY THE RESULT *

我会将它标记为它，它应该产生：

PRINT - token is KEYWORD
THE FLOAT IS - token is STRING_LITERAL
DISPLAY THE RESULT - token is COMMENT

我想知道最有效的方法来获得这个。请注意，我仍然需要验证字符串文字和注释的出现。（例如，检查是否正确封闭）。到目前为止，我的方法是用空格分割每一行，当一个lexeme包含“$”或“*”时，我将验证字符串文字。这是我的实施：

private void getLexemes(){
    for(String line : newSourceCode){
        String[] lexemesInALine = line.trim().split("[\\s]+");
        for(String lexemeInALine : lexemesInALine){
            if(!(lexemeInALine.contains("$"))){
                lexemes.add(lexemeInALine);
                tempTokens.add(findToken(lexemeInALine));
                line = line.replaceFirst(lexemeInALine,"").trim();
            }else{
                validateStringType(line);
                break;
            }
        }

感谢您的帮助。

Answer 1

我认为您的语言是确定性且无上下文的？这意味着，您无法使用正则表达式正确解析它。

您需要的是一个处理令牌流的状态机。 Java附带了两个可能适合您的类：StreamTokenizer和StringTokenizer。

但你真正想要的是使用几十个解析器生成器之一。也许像ANTLR。这里有很多描述：

https://en.wikipedia.org/wiki/Comparison_of_parser_generators

如果这一切都失败了，那就是有限状态机。沿着这些方向的东西

public class Parsy {
    enum State { string, comment, token }
    void parse(StringTokenizer tokenizer) {
        State state = State.token;

        List<String> tokens = new ArrayList<>();
        while (tokenizer.hasMoreTokens()) {
            String token = tokenizer.nextToken();
            // figure out type of token
            if (token.length() == 1) {
                char delim = token.charAt(0);
                switch (delim) {
                    case '$':
                        switch (state) {
                            case token: {
                                // a string literal has started, emit what we have, start a string
                                printOut(tokens, state);
                                tokens.clear();
                                tokens.add(token);
                                state = State.string;
                                break;
                            }
                            case string: { // parsing a string, so this ends it
                                printOut(tokens, state);
                                tokens.clear();
                                state = State.token;
                                break;
                            }
                            case comment: { // $ is ignored since we are in a comment
                                tokens.add(token);
                                break;
                            }
                        }
                        break;
                    // ...
                }
            } else {
                // not a delimiter token
                tokens.add(token);
            }

        } // end of while
    if (state != State.token) {
       System.out.println("Oops! Syntax error. I'm still parsing" + state);
     }
    }
}

使用自定义regex java拆分字符串

1 个答案: