给定具有Unicode General Category Ps或Pi的字符,匹配的结束字符是什么?

时间:2017-07-18 22:06:28

标签: python unicode

一些打开标点字符(Unicode常规类别Ps)和开头引号字符(Unicode常规类别Pi)碰巧在下一个代码点具有适当的结束字符。例如,(是U + 0028,)是U + 0029。同样,为U + 27EA,为U + 27EB。但也有例外,例如«(U + 00AB),其匹配字符为»,在U + 00BB处有16个代码点。

给定开头字符,如何确定合适的结束字符?

(我已经标记了这个问题python因为我最终想在Python中完成这个,但是语言中立的答案也很好。)

修改:感谢您指点我List of all unicode's open/close brackets?。特别是,this answer显示括号对(即PsPe个字符)。但是找到一个匹配的引用字符(即PiPf字符)的问题似乎不是镜像,比如 ,似乎保持开放。

1 个答案:

答案 0 :(得分:0)

正如我在问题编辑中提到的,Unicode数据文件BidiBrackets.txt显示了所有匹配的括号字符,其中开头字符为Ps。至于引号字符Pi,其中没有太多,所以我只是手工找到了最明显的结束字符:

« »
‘ ’
‛ ’
“ ”
‹ ›
⸂ ⸃
⸄ ⸅
⸉ ⸊
⸌ ⸍
⸜ ⸝
⸠ ⸡