从UTF16字符串的末尾修剪UTF8

时间:2019-09-23 15:03:49

标签: unicode logic utf-16 corruption

这是一个有趣的难题,我欢迎任何人的任何想法。我认为这里没有正确或错误的答案。

我的程序正在加载一个包含(除其他外)字符串数据结构的文件。它有助于声明结构的类型(UTF8,UTF16等),以及结构之前的长度(当然),因此我的程序知道如何处理数据。到现在为止,这种方法每次都运行良好。

现在,我已经得到了要加载的数据文件,该文件的末尾有垃圾-当我说垃圾时,我的意思是说,它在声明为UTF16的结构的末尾看起来像UTF8。

D·a·v·e···E·d·m·u·n·d·s·o·n·d`upbqp!c°rÞPrpupÎÐAgâh(28.RïSÿ

Dave Edmundson的部分很好-在这种情况下,所有这些都需要修整。美中不足的是,我仍然需要能够处理合法的UTF16扩展字符(例如韩语,中文等)。

我可以举起双手说“此数据已损坏”,然后吐出一个错误。但是,我希望能够尽可能地对其进行清洁。任何人可能有的任何想法都将受到欢迎!

这是一个逻辑问题,因此没有代码-如果有人感兴趣,我正在使用Objective-C,但是我真正想要的只是一些关于如何处理此问题的精明对话。我不需要为我编写代码!

0 个答案:

没有答案