日语在python和C ++中编码JIS_X_0208代码页

时间:2018-05-16 10:21:48

标签: character-encoding codepages cjk

我正在尝试编码和解码在JIS_X_0208中编码的日文字符。

在python中,我使用此命令将我的字符串从uft-8编码为日文字符

string.decode('utf8').encode('iso2022_jp')

正确编码汉字

我在C ++中使用此行解码为UTF-16

MultiByteToWideChar(932, 0, &s[0], s.size(), &unicodeBuffer[0], s.size());

所有汉字都被正确编码/解码。 但问题是它不符合JIS_X_0208。我更喜欢指定JIS_X_0208的使用是强制性的,我无法改变它。 例如,罗马字符应该以两个字节编码,第一个字节以0x23开头,例如,字母T应编码为0x23 0x54(根据他的JIS_X_0208维基百科页面和示例我是gevin为例)

我想我唯一的问题是为编码找到正确的代码页,但我找不到我需要的代码页。

有谁知道正确的代码页是什么,或者至少在哪里可以找到Windows上C ++和python的可用代码页?

提前谢谢。

0 个答案:

没有答案