如何区分UTF-8和ASCII文件?

时间:2011-04-29 10:18:40

标签: language-agnostic character-encoding

如何区分UTF-8(无BOM)和ASCII文件?

2 个答案:

答案 0 :(得分:5)

如果文件包含设置了最高位的任何字节,则它不是ASCII。

因此,如果唯一的可能性是ASCII或UTF-8,那么它是UTF-8。

如果文件只包含顶部位清除的字节,那么区分它是ASCII还是UTF-8是没有意义的,因为它代表完全相同的字符系列。但你可以称之为ASCII。

当然,这并不区分UTF-8与ISO Latin或CP1252,也没有确认所谓的UTF-8实际上是有效的。

答案 1 :(得分:-1)

http://msdn.microsoft.com/en-us/library/dd318672%28v=vs.85%29.aspx

IsTextUnicode功能 确定缓冲区是否可能包含一种Unicode文本形式。