标签: regex dfa fsm nfa
据我所知,像“lex”和“flex”这样的工具只处理字节输入。是的ASCII。这些工具生成的FSM状态转换表结果并不大,因为字母表中只有256个可能的字符。
如果我的字母表是Unicode,我试图找出如何在正则表达式求值程序中实现.(任何字符)或[^...]范围。说,UTF8。在这种情况下,是否有任何已知的技术可以使转换表易于管理?让他们保留所有可能的角色当然是不合理的。
.
[^...]
有什么想法吗?