使用二进制序列查找字符的编码

时间:2018-10-24 13:53:37

标签: java character-encoding xstream

我在XML中遇到以下文本:

<name>21&#x19;&amp;ª</name>

存在一个编码问题,导致文本21"成为这些字符。请注意,我在这里使用键盘输入了双引号,但实际上,这可能是微软自动将双引号替换掉的单词之一。我已经使用UTF-8将这些奇怪的字符分解为以下字节,因为这就是我的Java代码的Xstream库的作用:

  • &#x19; = 00011001
  • &amp; = 00100110
  • ª= &ordf; = 11000010 10101010

所以总的来说,奇怪的双引号导致了这些字节:

00011001 00100110 11000010 10101010

利用所有这些知识,我想知道找到作为输入到我们系统中的编码和原始字符。换句话说,哪个非utf8字符导致了该字节序列?我需要哪种编码才能将这些字节转换回原始字符?我尝试了一些在线转换器,但是它们都假定使用ascci或UTf-8,并且不要让我为我设置其他编码。

0 个答案:

没有答案