日语的Unicode范围

时间:2013-11-11 05:36:54

标签: unicode

我正在尝试分隔英文和日文字符。我需要找到所有日文字符的Unicode范围。什么是所有日文字符的Unicode范围?

5 个答案:

答案 0 :(得分:33)

正如zawhtut所提到的,this page有几个unicode范围的引用。总结范围:

  • 日式标点符号(3000 - 303f)
  • 平假名(3040 - 309f)
  • 片假名(30a0 - 30ff)
  • 全角罗马字符和半角片假名(ff00 - ffef)
  • CJK统一的表意文字 - 普通和不常见的汉字(4e00 - 9faf)

答案 1 :(得分:6)

请参阅此page以获取参考。它包含片假名,平假名和汉字unicode范围。

答案 2 :(得分:5)

CJK(中文日文和韩文),平假名和片假名(包括Halfwidth Katakana)

http://www.unicode.org/charts/

答案 3 :(得分:3)

尽管这个问题已经有了答案,但this blog post可能更完整。

请访问该网站并获取其指标,但为了后代,请复制粘贴。

  

平假名

     

Unicode代码指向正则表达式:[\x3041-\x3096]

     

Unicode块属性正则表达式:\p{Hiragana}

     

いいききききききっっっ   ととととのののののととととととととととととととと   p p p p p p

     

片假名(全角)

     

Unicode代码指向正则表达式:[\x30A0-\x30FF]

     

Unicode块属性正则表达式:\p{Katakana}

     

ァアィイゥカカカカククジジスススス   ットトトハハハピボボボボモモモモモュュボボボボボボボボ   ユラロロヺヺーーp

     

汉字

     

Unicode代码指向正则表达式:[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]

     

Unicode块属性正则表达式:\p{Han}

     

汉字日本语文字言语言葉等。要列出的字符太多。

     

此正则表达式将匹配所有汉字,包括使用的那些汉字   中文。

     

汉字自由基

     

Unicode代码指向正则表达式:[\x2E80-\x2FD5]

     

⺀⺃⺅p p p p p p p   ⺤⺨⻅⻅⻅⻅⻅⻅⻅⻅⻅⻅⻄⻄⻅⻅⻅⻅⻅⻅⻅⻅   ⻇⻋⻨⻨⻨⻨⻨⻨⻨⻨⻨⻨⻧⻧⻨⻨⻨⻨⻨⻨⻨⻨   ⻪⻮⼗⼗⼗⼗⼗⼗⼗⼗⼗⼗⼖⼖⼗⼗⼗⼗⼗⼗⼗⼗   ⼙⼝⼺⼺⼺⼺⼺⼺⼺⼺⼺⼺⼹⼹⼺⼺⼺⼺⼺⼺⼺⼺   ⼼⽀⽝⽝⽝⽝⽝⽝⽝⽝⽝⽝⽜⽜⽝⽝⽝⽝⽝⽝⽝⽝   ⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤   ⾂⾆⾣⾣⾣⾣⾣⾣⾣⾣⾣⾣⾢⾢⾣⾣⾣⾣⾣⾣⾣⾣   ⾥⾩⿆⿆⿆⿆⿆⿆⿆⿆⿆⿆⿅⿅⿆⿆⿆⿆⿆⿆⿆⿆   p p p p p

     

片假名和标点符号(半角)

     

Unicode代码指向正则表达式:[\xFF5F-\xFF9F]

     

⦅。 p p p p p p p p p   p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p      

日语符号和标点符号

     

Unicode代码指向正则表达式:[\x3000-\x303F]

     

,。〃〇〇〈〉《》「」『』〓〔〕〖〗〘〛 〛〜〜〞〞〞〡〣   p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p      

其他日语符号和字符

     

Unicode代码指向正则表达式:[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]

     

ㇰㇳㇵp p p p p p p   ㈴㈸㊑㊑㊑㊑㊑㊑㊑㊑㊑㊑㊐㊐㊑㊑㊑㊑㊑㊑㊑㊑   ㊓㊗㊴㊴㊴㊴㊴㊴㊴㊴㊴㊴㊳㊳㊴㊴㊴㊴㊴㊴㊴㊴   ㊶㊺㋛㋛㋛㋛㋛㋛㋛㋛㋛㋛㋚㋚㋛㋛㋛㋛㋛㋛㋛㋛   ㋝㋡㋾㋾㋾㋾㋾㋾㋾㋾㋾㋾㋽㋽㋾㋾㋾㋾㋾㋾㋾㋾   ㌁㌅㌢㌢㌢㌢㌢㌢㌢㌢㌢㌢㌡㌡㌢㌢㌢㌢㌢㌢㌢㌢   ㌤㌨㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅   ㍇㍋㍨㍨㍨㍨㍨㍨㍨㍨㍨㍨㍧㍧㍨㍨㍨㍨㍨㍨㍨㍨   p p p p p p p

     

字母数字和标点符号(全角)

     

Unicode代码指向正则表达式:[\xFF01-\xFF5E]

     

!“#$%&”()* +,-。 / 0 1 2 3 4 5 6 7 8 9 9:; <=>?@ A B C   D E F G H I J K L M N O P Q R S T U V W X X Y Z \   g

答案 4 :(得分:1)

  

所有日文字符的Unicode范围是什么?

查看The WiLI benchmark dataset for written language identification的页面,尤其是表格II。括号中的数字是您使用Unicode代码范围(十进制)捕获的语言的一部分。

  • 12352 - 12543:日语(48.73%),英语(0.00%)
  • 19000 - 44000:日语(32.78%),英语(0.00%)
  • 20 - 128:英语(99.74%),日语(11.58%)

你可以看到20 - 128非常好地捕获了英语,并且所有3个区块对日语都很重要,但仍然缺少大部分。

这些数字是使用lidtkWiLI-2018创建的。