如果我已经实现了基本的正则表达式匹配器,我如何实现词法分析器?

时间:2012-09-03 16:43:56

标签: regex algorithm lexer

我正在努力实现词法分析器以获得乐趣。我已经实现了一个基本的正则表达式匹配器(首先将模式转换为NFA,然后转换为DFA)。现在我对如何继续我一无所知。

我的词法分析者将会获取一系列令牌及其相应的正则表达式。用于创建词法分析器的一般算法是什么?

我想过(或)所有的正则表达式,但后来我无法确定哪个特定的令牌匹配。即使我扩展我的正则表达式模块以返回匹配成功时匹配的模式,我如何在匹配器中实现前瞻?

2 个答案:

答案 0 :(得分:5)

假设你有一个工作正则表达式,regex_match返回一个布尔值(如果一个字符串满足正则表达式,则为True)。首先,您需要有一个有序的令牌列表(每个都有正则表达式)tokens_regex,该订单很重要,因为订单将规定优先级

一种算法可能是(这不一定是唯一的算法)

  1. 编写一个带有字符串的过程next_token,并返回第一个标记,其值和剩余字符串(或 - 如果是非法/忽略字符 - 无,有问题的字符和剩余的字符串)。 注意:这必须尊重优先权,并且应该找到最长的令牌。
  2. 编写一个递归调用lex的过程next_token
  3. 像这样(用Python编写):

    tokens_regex = [ (TOKEN_NAME, TOKEN_REGEX),...] #order describes precedence
    
    def next_token( remaining_string ):
        for t_name, t_regex in tokens_regex: # check over in order of precedence
            for i in xrange( len(remaining_string), 0, -1 ): #check longest possibilities first (there may be a more efficient method).
                if regex_match( remaining_string[:i], t_regex ):
                    return t_name, remaining_string[:i], remaining_string[i:]
        return None, remaining_string[0], remaining_string[1:] #either an ignore or illegal character
    
    def lex( string ):
        tokens_so_far = []
        remaining_string = string
        while len(remaining_string) > 0:
            t_name, t_value, string_remaining = next_token(remaining_string)
            if t_name is not None:
                tokens_so_far.append(t_name, t_value)
            #elif not regex_match(t_value,ignore_regex):
                #check against ignore regex, if not in it add to an error list/illegal characters
       return tokens_so_far
    

    要添加一些内容以改进词法分析器:忽略正则表达式,错误列表和位置/行号(对于这些错误或令牌)。

    玩得开心!并且好好制作一个解析器:)。

答案 1 :(得分:2)

我做了几乎相同的事情。我这样做的方法是将所有表达式组合在一个非常大的NFA中,并将同样的东西转换成一个DFA。这样做可以跟踪以前在每个相应的原始DFA中接受状态的状态及其优先级。

生成的DFA将有许多接受状态的状态。您运行此DFA,直到它收到一个没有相应转换的字符。如果DFA处于接受状态,您将查看哪些原始NFA中具有该接受状态。具有最高优先级的是您要返回的令牌。

这不处理正则表达式前瞻。无论如何,词法分析工作通常不需要这些。这将是解析器的工作。

这样的词法分析器与单个正则表达式的运行速度大致相同,因为基本上只有一个DFA可以运行。您可以省略完全转换NFA以获得更快的构造算法,但运行速度更慢。算法基本相同。

我写的词法分析器的源代码是github上的freely available,如果你想看看我是怎么做的。