一些打开标点字符(Unicode常规类别Ps
)和开头引号字符(Unicode常规类别Pi
)碰巧在下一个代码点具有适当的结束字符。例如,(
是U + 0028,)
是U + 0029。同样,⟪
为U + 27EA,⟫
为U + 27EB。但也有例外,例如«
(U + 00AB),其匹配字符为»
,在U + 00BB处有16个代码点。
给定开头字符,如何确定合适的结束字符?
(我已经标记了这个问题python
因为我最终想在Python中完成这个,但是语言中立的答案也很好。)
修改:感谢您指点我List of all unicode's open/close brackets?。特别是,this answer显示括号对(即Ps
和Pe
个字符)。但是找到一个匹配的引用字符(即Pi
和Pf
字符)的问题似乎不是镜像,比如’
‘
,似乎保持开放。
答案 0 :(得分:0)
正如我在问题编辑中提到的,Unicode数据文件BidiBrackets.txt显示了所有匹配的括号字符,其中开头字符为Ps
。至于引号字符Pi
,其中没有太多,所以我只是手工找到了最明显的结束字符:
« »
‘ ’
‛ ’
“ ”
‹ ›
⸂ ⸃
⸄ ⸅
⸉ ⸊
⸌ ⸍
⸜ ⸝
⸠ ⸡