文件中的奇怪文字

时间:2016-05-31 10:33:48

标签: encoding utf

我有一些转储文件,包含像

这样的字符串
UserComment SeqOne A<E4 B8 80>B<E4 BA 8C>C<C3 96>D<F0 90 81 91>E

我无法理解此字符串中<E4 B8 80><E4 BA 8C><C3 96><F0 90 81 91>的含义。它是UTF还是其他编码?

1 个答案:

答案 0 :(得分:1)

这只是3个十六进制值。除了一些细节之外,没有什么可以告诉它的。

将值解释为UTF16

的测试
import java.util.Arrays;

public class Test{
    public static void main(String[] args){
        int a = 0xE4B880,
            b = 0xE4BA8C ,
            c = 0xC396 ,
            d = 0xF0908191;

        System.out.println(Arrays.toString(Character.toChars(a)));
        System.out.println(Arrays.toString(Character.toChars(b)));
        System.out.println(Arrays.toString(Character.toChars(c)));
        System.out.println(Arrays.toString(Character.toChars(d)));
    }
}

仅生成IllegalArgumentException。所以:不,这些都不是UTF16字符。

这些只是少数几个ID。虽然这很大程度上取决于这些值的来源。

正如@StephenC在评论中指出的那样:他们也没有UTF8字符。