腐败的日语单词成为中文单词

时间:2013-09-07 16:29:32

标签: unicode

当歌曲的细节变成乱码的中文时,我遇到了这个问题。例如:

トランスルーセント成为僩俦儞僗儖乕僙僩僩

通常会下载歌曲。我分析了unicode,他们似乎在8k左右不同。什么在改变unicodes?我的朋友没有问题地下载了同一个文件。

1 个答案:

答案 0 :(得分:3)

字节序列:

83 67 83 89 83 93 83 58 83 8b 81 5b 83 5a 83 93 83 67

可以使用Shift-JIS编码(在Windows上,代码页932)解释为“トランスルーセント”,或使用GB编码(在Windows上,代码页936)作为“僩俦儞僗儖乕僙儞interpreted” ”。如果Windows机器遇到一系列字节,没有任何信号告诉它正在使用哪种编码,它将选择其“默认代码页”,这取决于控制面板区域选项“非Unicode语言”中的设置应用“领域。如果设置为日语,你会看到“トランスルーセント”,如果中文你得到“僩俦儞僗儖乕僙儞僩”,如果西欧你得到“ƒgƒ‰ƒ”ƒXƒ< [ƒZƒ“ƒg”(经典的mojibake)。

为了避免这种情况发生在应用程序作者身上,您应该使用Unicode字符串和Unicode安全编码(如UTF-8和UTF-16)来存储数据。为避免以最终用户身份发生这种情况,您应该使用支持Unicode的应用程序和格式。当然,如果您正在下载一个随机MP3,那么您对它编码的应用程序所做的事情并没有多少说法,您将不得不忍受它。

目前尚不清楚您在问题中描述的事件的确切顺序以及您所比较的事件的不同之处。如果您要比较MP3文件,请注意一些高度反社会的媒体播放器应用程序决定在播放文件时写入ID3标签,这可能会以任意方式更改它。