日语ASCII码

时间:2009-11-26 04:02:14

标签: unicode cjk

我在哪里可以获得与日语汉字,平假名和片假名字符对应的ASCII码列表。我正在做一个java函数和Javascript,它确定它是一个日语字符。它的ASCII码范围是什么?

7 个答案:

答案 0 :(得分:10)

ASCII代表美国信息交换标准码,仅包含128个字符(并非所有字符均可打印),并且基于美国大约1960年使用的需求。它包括与任何日文字符无关的内容

我相信您需要Unicode code points来表示某些字符,您可以在unicode.org提供的charts中查找这些字符。

答案 1 :(得分:6)

请参阅我的similar question regarding Kanji/Kana characters。正如@coobird所提到的那样,由于许多汉字与汉字重叠,因此决定你要检查的范围可能会很棘手。

简而言之,平假名和片假名的Unicode范围是:

  • 平假名:Unicode:3040-309F
  • 片假名:Unicode:30A0-30FF

如果您觉得这个答案有用,请upvote @coobird's answer to my question

がんばって!

答案 2 :(得分:2)

日文字符不在ASCII范围内,它们将使用Unicode。你想要什么,只是每个角色的char值?

答案 3 :(得分:0)

我不会重复使用ASCII部分。只需查看Unicode Code Charts

答案 4 :(得分:0)

汉字将具有Hani的Unicode“脚本”属性,平假名将具有Hira的“脚本”属性,而片假名具有Kana的“脚本”属性。在Java中,您可以使用Character.UnicodeScript类来确定角色的“脚本”属性:http://docs.oracle.com/javase/7/docs/api/java/lang/Character.UnicodeScript.html我不知道您是否可以在Javascript中确定角色的“脚本”属性。

当然,大多数汉字都是用于中文的字符;鉴于像猫一样的角色,无法判断它是用作汉字还是日文字符。

答案 5 :(得分:0)

好吧已经有一段时间了,但这里有平假名,片假名,汉字等表和他们的Unicodes表的链接......

http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml

但是,你可能知道Unicodes是十六进制的。您可以在程序员模式下使用Windows Calc将它们转换为十进制数字,然后将该数字作为ASCII代码输入,它将生成您想要的字符,具体取决于您将其放入的内容。它将在MS Wordpad和Word(不是记事本)中。

例如,平假名ぁ在Unicode中是3041。 3041是十六进制,并以十进制转换为12353。如果您输入12353作为ASCII代码到Wordpad或Word,即按住Alt,在数字键盘上输入12353然后释放Alt,它将打印ぁ。日语字符的范围似乎是平假名:3040 - 309f(ASCII格式为12352-12447),片假名:30a0 - 30ff(ASCII格式为12448-12543),汉字:4e00-4DB5(19968-19893 ASCII),所以有几种范围。该图表上还有一个半宽片假名范围。

答案 6 :(得分:-2)

我认为日语的 ASCII 代码的含义是日语中的 SBCS (单字节字符集)。对于日语,您只有一个 MBCS (多字节字符集),它具有单字节字符和多字节字符的组合。因此,对于保存在MBCS中的日文文本文件,您将非日文字符(英文字母和数字以及常用的非字母数字字符)保存为一个字节,将日文字符保存为两个字节。

假设您没有提到 UNICODE 这是一个统一的 DBCS (双字节字符集),其中每个字符恰好是两个字节。实际上最近更正确UNICODE也有多个DBCS,因为字符集不能再容纳其他字符了。一些UNICODE字符由4个字节组成,前两个字节已作为前导字符。

如果你指的是第一个(MBCS)而不是UNICODE那么有很多日文字符集,如 Shift-JIS (更受欢迎的一个)。所以我建议您搜索Shift-JIS字符映射。虽然除了Shift-JIS之外还有其他日文字符集映射。