我正在为一种语言编写解析器,该语言对于Genlex
+ camlp4
流解析器来说足够简单,可以处理它。但是,在解析错误的情况下,我仍然有兴趣获得一个或多或少精确的位置(即至少一个行号)。
我的想法是在原char Stream
和token Stream
Genlex
之间使用中间流来处理行计数,如下面的代码所示,但我是想知道是否有更简单的解决方案?
let parse_file s =
let num_lines = ref 1 in
let bol = ref 0 in
let print_pos fmt i =
(* Emacs-friendly location *)
Printf.fprintf fmt "File %S, line %d, characters %d-%d:"
s !num_lines (i - !bol) (i - !bol)
in
(* Normal stream *)
let chan =
try open_in s
with
Sys_error e -> Printf.eprintf "Cannot open %s: %s\n%!" s e; exit 1
in
let chrs = Stream.of_channel chan in
(* Capture newlines and move num_lines and bol accordingly *)
let next i =
try
match Stream.next chrs with
| '\n' -> bol := i; incr num_lines; Some '\n'
| c -> Some c
with Stream.Failure -> None
in
let chrs = Stream.from next in
(* Pass that to the Genlex's lexer *)
let toks = lexer chrs in
let error s =
Printf.eprintf "%a\n%s %a\n%!"
print_pos (Stream.count chrs) s print_top toks;
exit 1
in
try
parse toks
with
| Stream.Failure -> error "Failure"
| Stream.Error e -> error ("Error " ^ e)
| Parsing.Parse_error -> error "Unexpected symbol"
答案 0 :(得分:2)
更简单的解决方案是使用Camlp4 grammars。
以这种方式构建的解析器允许人们“免费”获得不错的错误消息,这与流解析器(这是一种低级工具)的情况不同。
可能没有必要定义自己的词法分析器,因为OCaml的词法分析器已经适合您的需要。但如果您真的需要自己的词法分析器,那么您可以轻松插入自定义词法分析器:
module Camlp4Loc = Camlp4.Struct.Loc
module Lexer = MyLexer.Make(Camlp4Loc)
module Gram = Camlp4.Struct.Grammar.Static.Make(Lexer)
open Lexer
let entry = Gram.Entry.mk "entry"
EXTEND Gram
entry: [ [ ... ] ];
END
let parse str =
Gram.parse rule (Loc.mk file) (Stream.of_string str)
如果你是OCaml的新手,那么所有这些模块系统的诡计最初可能看起来像黑巫毒魔术:-) Camlp4是一个严重未被证实的野兽的事实也可能有助于体验的超现实性。
所以,永远不要犹豫在mailing list上提问(甚至是愚蠢的问题)。