给了我一个似乎是用UTF-8编码的文件,但是每个以1开头的字节都以0开头。
例如在人们期望波兰字母'ę'(用UTF-8编码为\o304\o231
)的地方,有\o104\o031
。或者,以二进制形式包含01000100:00011001
而不是11000100:10011001
。
我认为这不是由讨厌的邪恶文件创建者有意这样做的,而是由于对正确的UTF-8文件执行了一些错误操作而导致的。
问题是:可能是什么“合理”操作引起的?我不知道文件是如何创建的,可能是由某些未知软件导出的文件,没有压缩,上载,复制和粘贴,转换为其他编码的文件。
任何想法我都会很感激的:)