如何检测一系列文本的代码页,一个字符的2字节,它是波兰语。对于普通的英文字符,只需在ansi代码中添加0x00,对于特殊的波兰字符,这两个字节具有特殊含义。没有文件头,就像这样的字节流。
此处示例
字符串:Połączenia
字节:50 00 / 6f 00/42 01/05 01/63 00 / 7a 00/65 00/69 00/61 00
我认为这不是unicode,因为unicode中的0x4201是一个中文字符 不是波兰语。
所以任何人都可以帮助我吗?非常感谢!
答案 0 :(得分:2)
其UTF-16 Big Endian。
$ echo -n "Połączenia" | iconv -f UTF8 -t UTF16BE | hexdump
0000000 5000 6f00 4201 0501 6300 7a00 6500 6e00
0000010 6900 6100