标签: unicode text-normalization
我注意到在将Unicode字符串规范化为NFKC格式时,上标字符如¹(U + 00B9),²(U + 00B2),³(U + 00B3)等转换为相应的ASCII数字(例如1,2,3等。)
¹
²
³
1
2
3
有谁知道这种行为的理由?看起来它在这个过程中丢失了信息。例如,上标数字通常具有一些上下文含义。