据我所知,字符编码将位映射为整数,字符集将整数映射到字符。
因此在Unicode字符集中有一个电话字符。它使用整数9742表示,更常用十六进制表示为260E。然后使用UTF-8将其保存到文件中,将整数9742转换为10011000001110.如果我错了,请纠正我。
昨天我创建了一个使用Unicode字符集和UTF-8编码的文本文件,并将其保存到桌面。然后我在文本编辑器中重新打开文件,并开始手动切换字符集以获得乐趣。不出所料,有问题和奇怪的人物开始显示!我注意到只有一些角色被误传了。这让我思考,为什么只有一些人物破碎?为什么不呢?
有人告诉我,破解的字符是原始ASCII规范之外的字符。经过反思,这似乎是有道理的,因为它只是非美国角色的突破。有人告诉我,因为所有字符集使用的ASCII字符设置为前128个字符,它们将保持不间断,并且它是突破127的字符。如果我错了,请纠正我。
最后,我开始思考。有没有不尊重ASCII的字符集?如果是这样,他们叫什么,他们用什么?