antlr4和国际字符

时间:2015-07-05 23:38:10

标签: unicode antlr4

我一直在使用antlr4来解析德语文档,到目前为止,我已经完成了以下操作来解析包含德语字符的文本:

LETTERS:
[a-zA-Z_\u00DC\u00FC\u00D6\u00F6\u00C4\u00E4\u00DF]; // hex unicodes for ÜüÖöÄäß

以antlr理解的方式描述Unicode中所有语言的语言字符的最佳方法是什么,而不单独指定每种语言/字符?比方说法语,阿拉伯语或中文,日文字符?

谢谢

1 个答案:

答案 0 :(得分:2)

最好的方法是使用与所需Unicode类对应的字符范围。即使这样,结果也可能有点笨拙。请参阅此worked example

Unicode标准的附录表中提供的原始数据可以被剥离并以可用的格式进行操作,只需要花费太多精力。 ;)