自定义Lexer的分析器问题

时间:2012-10-28 05:39:17

标签: c++ rdbms lexer parser-generator

我正在寻求有关自定义构建的Lexer类的帮助,并使用它来解析输入。我们的教授为我们的项目提供了一些骨架代码,我们必须使用它。 我的问题是,我们需要能够一次调用多个函数来对表进行排序并对单独表的列进行合并/排序。例如,我们的输入将是:

  

显示<'file_name>已排序<'column2>

其中'display'和'sortedby'是一种关键字,column2将按数字或字母顺序排序 - 具体取决于内容。

我们给出了用于排序的算法,我当前的问题不在于实现,而是能够让我们的Lexer / Parser读取多个输入。 目前,我只能让“显示”位工作。任何更多只是吐回错误信息。

我查看了代码,尝试将一些逻辑 - 切换语句从true更改为false,交换&&&和s |,甚至尝试了一些if-else语句,没有运气。

我真的可以使用一些建议!我们提供的一些代码,原始格式为:

Lexer.h:

#ifndef _LEXER_H
#define _LEXER_H
#include <string>

enum token_types_t { 
IDENT,  // a sequence of alphanumeric characters and _, starting with alpha
TAG, // sequence of characters between < >, no escape
ENDTOK, // end of string/file, no more token
ERRTOK  // unrecognized token
};

struct Token {
token_types_t type;
std::string value;
// constructor for Token
Token(token_types_t tt=ENDTOK, std::string val="") : type(tt), value(val) {}
};

class Lexer {
public:
// constructor
Lexer(std::string str="") : input_str(str), cur_pos(0), in_err(false), 
    separators(" \t\n\r") { }

//modifiers 
void set_input(std::string); // set a new input, 
void restart();              // move cursor to the beginning, restart

Token next_token();    // returns the next token
bool has_more_token(); // are there more token(s)?

private:
std::string input_str;  // the input string to be scanned
size_t      cur_pos;    // current position in the input string
bool        in_err;     // are we in the error state?
std::string separators; // set of separators; *not* the best option!
};
#endif

Lexer.cpp:

#include "Lexer.h"
#include <iostream>
using namespace std;

Token Lexer::next_token() {
Token ret;
size_t last;

if (in_err) {
    ret.type = ERRTOK;
    ret.value = "";
    return ret;
}

// if not in error state, the default token is the ENDTOK
ret.type = ENDTOK;
ret.value = "";

if (has_more_token()) {
    last = cur_pos; // input_str[last] is a non-space char
    if (input_str[cur_pos] == '<') {
        cur_pos++;
        while (cur_pos < input_str.length() && input_str[cur_pos] != '>')
            cur_pos++;
        if (cur_pos < input_str.length()) {
            ret.type = TAG;
            ret.value = input_str.substr(last+1, cur_pos-last-1);
            cur_pos++; // move past the closing "
        } else {
            in_err = true;
            ret.type = ERRTOK;
            ret.value = "";
        }
    } else {
        while (cur_pos < input_str.length() &&
               separators.find(input_str[cur_pos]) == string::npos &&
               input_str[cur_pos] != '<') {
            cur_pos++;
        }
        ret.type  = IDENT;
        ret.value = input_str.substr(last, cur_pos-last);
    }
}
return ret;
}

void Lexer::set_input(string str) {
input_str = str;
restart();
}

bool Lexer::has_more_token() {
while (cur_pos < input_str.length() && 
       separators.find(input_str[cur_pos]) != string::npos) {
    cur_pos++;
}
return (cur_pos < input_str.length());
}

void Lexer::restart() {
cur_pos = 0;
in_err = false;
}

我们的Parser(更大的.cpp文件的一部分):

bool parse_input(Lexer lexer, string& file_name) {    
Token file_name_tok;

if (!lexer.has_more_token() || 
    (file_name_tok = lexer.next_token()).type != TAG)
    return false;

if  (lexer.has_more_token())
    return false;

file_name = file_name_tok.value;
return true;
}

显示功能(与解析器相同的.cpp文件的一部分):

void display(Lexer cmd_lexer) {
string file_name, line;

if (!parse_input(cmd_lexer, file_name)) {
    error_return("Syntax error: display <filename>");
    return;
}

ifstream ifs(file_name.c_str());
string error_msg;
if (ifs) {
       if (!is_well_formed(ifs, error_msg)) {
        error_return(error_msg);
    } else {
            ifs.clear();           
        ifs.seekg(0, ios::beg); 
        print_well_formed_file(ifs);
    }
    while (ifs.good()) {
  getline (ifs, line);
  cout << line << endl;
}

} else {
    error_return("Can't open " + file_name + " for reading");
}
ifs.close();
}

2 个答案:

答案 0 :(得分:1)

根据我评论的答案,这些是我解决问题的方法:

  • 如果display命令应该读取源文件并对其进行解析,则可以通过堆栈实现它。每当找到并解析display指令时,就会在堆栈上推送一个新的词法分析器实例。使用堆栈顶部的“当前”词法分析器。

  • 如果display命令应该读取并对与实际解析无关的文件执行某些操作,则考虑以固定格式的中间形式存储指令,并在完成解析后“执行”这种中间格式。这是几乎所有现代脚本语言的方式。

答案 1 :(得分:0)

似乎很容易。要读取多个输入,您需要多个Lexer / Parser。只需为您必须阅读的每个输入创建一个。