我有一个语法,除了我不相信语法是LL(1)之外我不知道解析它需要什么类型的解析器。我想我需要一个带有回溯或某种LL(*)的解析器。我想出的语法(可能需要重写)是:
S: Rules
Rules: Rule | Rule Rules
Rule: id '=' Ids
Ids: id | Ids id
我想要生成的语言看起来像这样:
abc = def g hi jk lm
xy = aaa bbb ccc ddd eee fff jjj kkk
foo = bar ha ha
零个或多个规则,其中包含左侧标识符,后跟等号,后跟一个或多个标识符。我认为编写解析器时遇到问题的部分是语法允许规则中的任何数量的id,并且判断新规则何时开始的唯一方法是找到id =,这需要回溯。
对于手写解析器,有没有人知道这种语法的分类和解析的最佳方法?
答案 0 :(得分:4)
生成标识符,后跟等号后跟有限的标识符序列的语法是 regular 。这意味着可以使用DFA或正则表达式解析语言中的字符串。不需要花哨的非确定性或 LL (*)解析器。
要查看该语言是否正常,请 Id = U { a : a ∈Γ},其中Γ⊂Σ是标识符中可能出现的符号集。您尝试生成的语言由正则表达式
表示设置Γ= { a , b ,..., z },正则表达式语言中的字符串示例为:
无需使用强大的解析技术来解析您的语言。这是使用正则表达式或DFA进行解析既适当又最优的一种情况。
修改强>
调用上面的正则表达式 R 。要解析 R * ,请生成识别 R * 语言的DFA。为此,使用可从Kleene定理获得的算法生成识别 R * 语言的NFA。然后使用子集构造将NFA转换为DFA。生成的DFA将识别 R * 中的所有字符串。给定在您的实现语言中构造的DFA的表示,所需的操作 - 例如,
可以编码为DFA的状态。实际上,对于这样一种简单的语言,使用Kleene定理和子集构造可能是不必要的。也就是说,您可以在不实现自动机的情况下编写具有上述两个操作的解析器。给定一个更复杂的常规语言(例如,编程语言的词法结构),转换将是最佳选择。