\ u0003和\ u00ff之间的Unicode字符

时间:2011-07-25 12:28:59

标签: unicode

我有一段Java代码检查它是在两个unicode字符之间:

LA(2) >= '\u0003' && LA(2) <= '\u00ff'

我理解\u0003代表END OF TEXT\u00ff代表LATIN SMALL LETTER Y WITH DIAERESIS,但这些点之间有什么关系? (检查LA(2)是什么?)

e.g。是所有拉丁字符,数字字符,或带重音字符的字符,所有ascii字符或其他内容?

3 个答案:

答案 0 :(得分:4)

它是Latin 1减去代码点U + 0000,U + 0001和U + 0002。这包括可以在美国键盘上找到的常用内容,大量控制字符(U + 0020以下以及U + 007F和U + 009F之间)和一些其他可用于编写西欧大部分字符的拉丁字符语言。

enter image description here

答案 1 :(得分:2)

声明以下范围:

0000 - 007F C0 Controls and Basic Latin
0080 - 00FF C1 Controls and Latin-1 Supplement

要查看哪个unicode值代表哪个字符,我建议您查看以下链接之一:

答案 2 :(得分:0)

除了前3个代码之外,它是基本的latin1字符集。

0x0000 - 0x007F : Basic Latin (128)
0x0080 - 0x00FF : Latin-1 Supplement (128)

代码可能会检查字符是否可以作为单字节char(latin1编码)输出。