应用错误收集

给了我一个似乎是用UTF-8编码的文件，但是每个以1开头的字节都以0开头。

例如在人们期望波兰字母'ę'（用UTF-8编码为\o304\o231）的地方，有\o104\o031。或者，以二进制形式包含01000100:00011001而不是11000100:10011001。

我认为这不是由讨厌的邪恶文件创建者有意这样做的，而是由于对正确的UTF-8文件执行了一些错误操作而导致的。

问题是：可能是什么“合理”操作引起的？我不知道文件是如何创建的，可能是由某些未知软件导出的文件，没有压缩，上载，复制和粘贴，转换为其他编码的文件。

任何想法我都会很感激的：）