获取任何模糊字符集/编码的字符映射(例如ibm-943_P14A-2000)

时间:2015-08-12 20:55:16

标签: encoding character-encoding chinese-locale shift-jis

最近,我们的软件遇到了某些不明显的汉字(中文字符)的问题,而我们的Shift-JIS编码没有这个问题。我做了一个算法来读取任何Shift-JIS字符串,试图找到任何“越界”汉字并将字符串切换为UTF-8(它有更多字符,但使用更多空间)。

为了找到不被覆盖的汉字,我需要抓住 ibm-943_P14A-2000编码的字符图。

在哪里寻找这些字符集的地图? 通过网络搜索很容易找到UTF8查找等,但我找不到图表/表格/文件中哪些值对应于此编码中的值。

如果你能指出我的方向,无论多么模糊,我都会非常感激。

1 个答案:

答案 0 :(得分:2)

ICU项目有一组相当大的字符集映射表,包括ibm-943_P14A-1999。 ' 1999'之间的区别和' 2000'在this thread中进行了解释 - 您可以查看旧表的旧版ICU源代码。该表的格式描述为in the ICU User Guide

对于原始字符映射(IBM-943的字符集),它们是documented here