最近,我们的软件遇到了某些不明显的汉字(中文字符)的问题,而我们的Shift-JIS编码没有这个问题。我做了一个算法来读取任何Shift-JIS字符串,试图找到任何“越界”汉字并将字符串切换为UTF-8(它有更多字符,但使用更多空间)。
为了找到不被覆盖的汉字,我需要抓住 ibm-943_P14A-2000编码的字符图。
在哪里寻找这些字符集的地图? 通过网络搜索很容易找到UTF8查找等,但我找不到图表/表格/文件中哪些值对应于此编码中的值。
如果你能指出我的方向,无论多么模糊,我都会非常感激。
答案 0 :(得分:2)
ICU项目有一组相当大的字符集映射表,包括ibm-943_P14A-1999
。 ' 1999'之间的区别和' 2000'在this thread中进行了解释 - 您可以查看旧表的旧版ICU源代码。该表的格式描述为in the ICU User Guide。
对于原始字符映射(IBM-943的字符集),它们是documented here。