每个字节的第一位设置为0

时间:2019-06-05 11:49:45

标签: utf-8 character-encoding utf

给了我一个似乎是用UTF-8编码的文件,但是每个以1开头的字节都以0开头。

例如在人们期望波兰字母'ę'(用UTF-8编码为\o304\o231)的地方,有\o104\o031。或者,以二进制形式包含01000100:00011001而不是11000100:10011001

我认为这不是由讨厌的邪恶文件创建者有意这样做的,而是由于对正确的UTF-8文件执行了一些错误操作而导致的。

问题是:可能是什么“合理”操作引起的?我不知道文件是如何创建的,可能是由某些未知软件导出的文件,没有压缩,上载,复制和粘贴,转换为其他编码的文件。

任何想法我都会很感激的:)

0 个答案:

没有答案