应用错误收集

正如zawhtut所提到的，this page有几个unicode范围的引用。总结范围：

日式标点符号（3000 - 303f）
平假名（3040 - 309f）
片假名（30a0 - 30ff）
全角罗马字符和半角片假名（ff00 - ffef）
CJK统一的表意文字 - 普通和不常见的汉字（4e00 - 9faf）

请参阅此page以获取参考。它包含片假名，平假名和汉字unicode范围。

CJK（中文日文和韩文），平假名和片假名（包括Halfwidth Katakana）

http://www.unicode.org/charts/

尽管这个问题已经有了答案，但this blog post可能更完整。

请访问该网站并获取其指标，但为了后代，请复制粘贴。

平假名

Unicode代码指向正则表达式：[\x3041-\x3096]

Unicode块属性正则表达式：\p{Hiragana}

いいききききききっっっ   ととととのののののととととととととととととととと   p p p p p p

片假名（全角）

Unicode代码指向正则表达式：[\x30A0-\x30FF]

Unicode块属性正则表达式：\p{Katakana}

ァアィイゥカカカカククジジスススス   ットトトハハハピボボボボモモモモモュュボボボボボボボボ   ユラロロヺヺーーp

汉字

Unicode代码指向正则表达式：[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]

Unicode块属性正则表达式：\p{Han}

汉字日本语文字言语言葉等。要列出的字符太多。

此正则表达式将匹配所有汉字，包括使用的那些汉字   中文。

汉字自由基

Unicode代码指向正则表达式：[\x2E80-\x2FD5]

⺀⺃⺅p p p p p p p   ⺤⺨⻅⻅⻅⻅⻅⻅⻅⻅⻅⻅⻄⻄⻅⻅⻅⻅⻅⻅⻅⻅   ⻇⻋⻨⻨⻨⻨⻨⻨⻨⻨⻨⻨⻧⻧⻨⻨⻨⻨⻨⻨⻨⻨   ⻪⻮⼗⼗⼗⼗⼗⼗⼗⼗⼗⼗⼖⼖⼗⼗⼗⼗⼗⼗⼗⼗   ⼙⼝⼺⼺⼺⼺⼺⼺⼺⼺⼺⼺⼹⼹⼺⼺⼺⼺⼺⼺⼺⼺   ⼼⽀⽝⽝⽝⽝⽝⽝⽝⽝⽝⽝⽜⽜⽝⽝⽝⽝⽝⽝⽝⽝   ⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤⽤   ⾂⾆⾣⾣⾣⾣⾣⾣⾣⾣⾣⾣⾢⾢⾣⾣⾣⾣⾣⾣⾣⾣   ⾥⾩⿆⿆⿆⿆⿆⿆⿆⿆⿆⿆⿅⿅⿆⿆⿆⿆⿆⿆⿆⿆   p p p p p

片假名和标点符号（半角）

Unicode代码指向正则表达式：[\xFF5F-\xFF9F]

｟｡ p p p p p p p p p   p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p
日语符号和标点符号

Unicode代码指向正则表达式：[\x3000-\x303F]

，。〃〇〇〈〉《》「」『』〓〔〕〖〗〘〛〛〜〜〞〞〞〡〣   p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p
其他日语符号和字符

Unicode代码指向正则表达式：[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]

ㇰㇳㇵp p p p p p p   ㈴㈸㊑㊑㊑㊑㊑㊑㊑㊑㊑㊑㊐㊐㊑㊑㊑㊑㊑㊑㊑㊑   ㊓㊗㊴㊴㊴㊴㊴㊴㊴㊴㊴㊴㊳㊳㊴㊴㊴㊴㊴㊴㊴㊴   ㊶㊺㋛㋛㋛㋛㋛㋛㋛㋛㋛㋛㋚㋚㋛㋛㋛㋛㋛㋛㋛㋛   ㋝㋡㋾㋾㋾㋾㋾㋾㋾㋾㋾㋾㋽㋽㋾㋾㋾㋾㋾㋾㋾㋾   ㌁㌅㌢㌢㌢㌢㌢㌢㌢㌢㌢㌢㌡㌡㌢㌢㌢㌢㌢㌢㌢㌢   ㌤㌨㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅㍅   ㍇㍋㍨㍨㍨㍨㍨㍨㍨㍨㍨㍨㍧㍧㍨㍨㍨㍨㍨㍨㍨㍨   p p p p p p p

字母数字和标点符号（全角）

Unicode代码指向正则表达式：[\xFF01-\xFF5E]

！“＃＄％＆”（）＊＋，－。／０１２３４５６７８９９：；＜＝＞？＠ＡＢＣ   ＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＸＹＺ＼   ｇ

所有日文字符的Unicode范围是什么？

查看The WiLI benchmark dataset for written language identification的页面，尤其是表格II。括号中的数字是您使用Unicode代码范围（十进制）捕获的语言的一部分。

12352 - 12543：日语（48.73％），英语（0.00％）
19000 - 44000：日语（32.78％），英语（0.00％）
20 - 128：英语（99.74％），日语（11.58％）

你可以看到20 - 128非常好地捕获了英语，并且所有3个区块对日语都很重要，但仍然缺少大部分。

这些数字是使用lidtk和WiLI-2018创建的。

日语的Unicode范围

5 个答案: