我正在尝试分隔英文和日文字符。我需要找到所有日文字符的Unicode范围。什么是所有日文字符的Unicode范围?
答案 0 :(得分:33)
正如zawhtut所提到的,this page有几个unicode范围的引用。总结范围:
答案 1 :(得分:6)
请参阅此page以获取参考。它包含片假名,平假名和汉字unicode范围。
答案 2 :(得分:5)
CJK(中文日文和韩文),平假名和片假名(包括Halfwidth Katakana)
答案 3 :(得分:3)
尽管这个问题已经有了答案,但this blog post可能更完整。
请访问该网站并获取其指标,但为了后代,请复制粘贴。
平假名
Unicode代码指向正则表达式:
[\x3041-\x3096]
Unicode块属性正则表达式:
\p{Hiragana}
いいききききききっっっ ととととのののののととととととととととととととと p p p p p p
片假名(全角)
Unicode代码指向正则表达式:
[\x30A0-\x30FF]
Unicode块属性正则表达式:
\p{Katakana}
ァアィイゥカカカカククジジスススス ットトトハハハピボボボボモモモモモュュボボボボボボボボ ユラロロヺヺーーp
汉字
Unicode代码指向正则表达式:
[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]
Unicode块属性正则表达式:
\p{Han}
汉字日本语文字言语言葉等。要列出的字符太多。
此正则表达式将匹配所有汉字,包括使用的那些汉字 中文。
汉字自由基
Unicode代码指向正则表达式:
[\x2E80-\x2FD5]
⺀⺃⺅p p p p p p p ⺤⺨⻅⻅⻅⻅⻅⻅⻅⻅⻅⻅⻄⻄⻅⻅⻅⻅⻅⻅⻅⻅ ⻇⻋⻨⻨⻨⻨⻨⻨⻨⻨⻨⻨⻧⻧⻨⻨⻨⻨⻨⻨⻨⻨ ⻪⻮⼗⼗⼗⼗⼗⼗⼗⼗⼗⼗⼖⼖⼗⼗⼗⼗⼗⼗⼗⼗ ⼙⼝⼺⼺⼺⼺⼺⼺⼺⼺⼺⼺⼹⼹⼺⼺⼺⼺⼺⼺⼺⼺ ⼼⽀⽝⽝⽝⽝⽝⽝⽝⽝⽝⽝⽜⽜⽝⽝⽝⽝⽝⽝⽝⽝ ⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤ ⾂⾆⾣⾣⾣⾣⾣⾣⾣⾣⾣⾣⾢⾢⾣⾣⾣⾣⾣⾣⾣⾣ ⾥⾩⿆⿆⿆⿆⿆⿆⿆⿆⿆⿆⿅⿅⿆⿆⿆⿆⿆⿆⿆⿆ p p p p p
片假名和标点符号(半角)
Unicode代码指向正则表达式:
[\xFF5F-\xFF9F]
⦅。 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p
日语符号和标点符号
Unicode代码指向正则表达式:
[\x3000-\x303F]
,。〃〇〇〈〉《》「」『』〓〔〕〖〗〘〛 〛〜〜〞〞〞〡〣 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p
其他日语符号和字符
Unicode代码指向正则表达式:
[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]
ㇰㇳㇵp p p p p p p ㈴㈸㊑㊑㊑㊑㊑㊑㊑㊑㊑㊑㊐㊐㊑㊑㊑㊑㊑㊑㊑㊑ ㊓㊗㊴㊴㊴㊴㊴㊴㊴㊴㊴㊴㊳㊳㊴㊴㊴㊴㊴㊴㊴㊴ ㊶㊺㋛㋛㋛㋛㋛㋛㋛㋛㋛㋛㋚㋚㋛㋛㋛㋛㋛㋛㋛㋛ ㋝㋡㋾㋾㋾㋾㋾㋾㋾㋾㋾㋾㋽㋽㋾㋾㋾㋾㋾㋾㋾㋾ ㌁㌅㌢㌢㌢㌢㌢㌢㌢㌢㌢㌢㌡㌡㌢㌢㌢㌢㌢㌢㌢㌢ ㌤㌨㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅ ㍇㍋㍨㍨㍨㍨㍨㍨㍨㍨㍨㍨㍧㍧㍨㍨㍨㍨㍨㍨㍨㍨ p p p p p p p
字母数字和标点符号(全角)
Unicode代码指向正则表达式:
[\xFF01-\xFF5E]
!“#$%&”()* +,-。 / 0 1 2 3 4 5 6 7 8 9 9:; <=>?@ A B C D E F G H I J K L M N O P Q R S T U V W X X Y Z \ g | 〜
答案 4 :(得分:1)
所有日文字符的Unicode范围是什么?
查看The WiLI benchmark dataset for written language identification的页面,尤其是表格II。括号中的数字是您使用Unicode代码范围(十进制)捕获的语言的一部分。
你可以看到20 - 128非常好地捕获了英语,并且所有3个区块对日语都很重要,但仍然缺少大部分。