如何在表驱动的FSM中处理Unicode点?

时间:2015-06-24 22:05:16

标签: regex dfa fsm nfa

据我所知,像“lex”和“flex”这样的工具只处理字节输入。是的ASCII。这些工具生成的FSM状态转换表结果并不大,因为字母表中只有256个可能的字符。

如果我的字母表是Unicode,我试图找出如何在正则表达式求值程序中实现.(任何字符)或[^...]范围。说,UTF8。在这种情况下,是否有任何已知的技术可以使转换表易于管理?让他们保留所有可能的角色当然是不合理的。

有什么想法吗?

0 个答案:

没有答案