正则表达式中的Unicode脚本

时间:2011-02-21 13:09:41

标签: java regex unicode character-properties

我想猜一下字符串的人类语言。我发现正则表达式中的Unicode脚本可以解决问题。但我不知道脚本名称代表什么。据我所知,Han代表中国人,但其他人呢?

2 个答案:

答案 0 :(得分:3)

我认为这就是我的需要。谢谢@Jesper。

ISO 15924 Code Lists

PropertyValueAliases.txt复制的Unicode脚本名称及其简写别名列表:

# Script (sc)

sc ; Aghb                ; Caucasian_Albanian
sc ; Arab                ; Arabic
sc ; Armi                ; Imperial_Aramaic
sc ; Armn                ; Armenian
sc ; Avst                ; Avestan
sc ; Bali                ; Balinese
sc ; Bamu                ; Bamum
sc ; Bass                ; Bassa_Vah
sc ; Batk                ; Batak
sc ; Beng                ; Bengali
sc ; Bopo                ; Bopomofo
sc ; Brah                ; Brahmi
sc ; Brai                ; Braille
sc ; Bugi                ; Buginese
sc ; Buhd                ; Buhid
sc ; Cakm                ; Chakma
sc ; Cans                ; Canadian_Aboriginal
sc ; Cari                ; Carian
sc ; Cham                ; Cham
sc ; Cher                ; Cherokee
sc ; Copt                ; Coptic                           ; Qaac
sc ; Cprt                ; Cypriot
sc ; Cyrl                ; Cyrillic
sc ; Deva                ; Devanagari
sc ; Dsrt                ; Deseret
sc ; Dupl                ; Duployan
sc ; Egyp                ; Egyptian_Hieroglyphs
sc ; Elba                ; Elbasan
sc ; Ethi                ; Ethiopic
sc ; Geor                ; Georgian
sc ; Glag                ; Glagolitic
sc ; Goth                ; Gothic
sc ; Gran                ; Grantha
sc ; Grek                ; Greek
sc ; Gujr                ; Gujarati
sc ; Guru                ; Gurmukhi
sc ; Hang                ; Hangul
sc ; Hani                ; Han
sc ; Hano                ; Hanunoo
sc ; Hebr                ; Hebrew
sc ; Hira                ; Hiragana
sc ; Hmng                ; Pahawh_Hmong
sc ; Hrkt                ; Katakana_Or_Hiragana
sc ; Ital                ; Old_Italic
sc ; Java                ; Javanese
sc ; Kali                ; Kayah_Li
sc ; Kana                ; Katakana
sc ; Khar                ; Kharoshthi
sc ; Khmr                ; Khmer
sc ; Khoj                ; Khojki
sc ; Knda                ; Kannada
sc ; Kthi                ; Kaithi
sc ; Lana                ; Tai_Tham
sc ; Laoo                ; Lao
sc ; Latn                ; Latin
sc ; Lepc                ; Lepcha
sc ; Limb                ; Limbu
sc ; Lina                ; Linear_A
sc ; Linb                ; Linear_B
sc ; Lisu                ; Lisu
sc ; Lyci                ; Lycian
sc ; Lydi                ; Lydian
sc ; Mahj                ; Mahajani
sc ; Mand                ; Mandaic
sc ; Mani                ; Manichaean
sc ; Mend                ; Mende_Kikakui
sc ; Merc                ; Meroitic_Cursive
sc ; Mero                ; Meroitic_Hieroglyphs
sc ; Mlym                ; Malayalam
sc ; Modi                ; Modi
sc ; Mong                ; Mongolian
sc ; Mroo                ; Mro
sc ; Mtei                ; Meetei_Mayek
sc ; Mymr                ; Myanmar
sc ; Narb                ; Old_North_Arabian
sc ; Nbat                ; Nabataean
sc ; Nkoo                ; Nko
sc ; Ogam                ; Ogham
sc ; Olck                ; Ol_Chiki
sc ; Orkh                ; Old_Turkic
sc ; Orya                ; Oriya
sc ; Osma                ; Osmanya
sc ; Palm                ; Palmyrene
sc ; Pauc                ; Pau_Cin_Hau
sc ; Perm                ; Old_Permic
sc ; Phag                ; Phags_Pa
sc ; Phli                ; Inscriptional_Pahlavi
sc ; Phlp                ; Psalter_Pahlavi
sc ; Phnx                ; Phoenician
sc ; Plrd                ; Miao
sc ; Prti                ; Inscriptional_Parthian
sc ; Rjng                ; Rejang
sc ; Runr                ; Runic
sc ; Samr                ; Samaritan
sc ; Sarb                ; Old_South_Arabian
sc ; Saur                ; Saurashtra
sc ; Shaw                ; Shavian
sc ; Shrd                ; Sharada
sc ; Sidd                ; Siddham
sc ; Sind                ; Khudawadi
sc ; Sinh                ; Sinhala
sc ; Sora                ; Sora_Sompeng
sc ; Sund                ; Sundanese
sc ; Sylo                ; Syloti_Nagri
sc ; Syrc                ; Syriac
sc ; Tagb                ; Tagbanwa
sc ; Takr                ; Takri
sc ; Tale                ; Tai_Le
sc ; Talu                ; New_Tai_Lue
sc ; Taml                ; Tamil
sc ; Tavt                ; Tai_Viet
sc ; Telu                ; Telugu
sc ; Tfng                ; Tifinagh
sc ; Tglg                ; Tagalog
sc ; Thaa                ; Thaana
sc ; Thai                ; Thai
sc ; Tibt                ; Tibetan
sc ; Tirh                ; Tirhuta
sc ; Ugar                ; Ugaritic
sc ; Vaii                ; Vai
sc ; Wara                ; Warang_Citi
sc ; Xpeo                ; Old_Persian
sc ; Xsux                ; Cuneiform
sc ; Yiii                ; Yi
sc ; Zinh                ; Inherited                        ; Qaai
sc ; Zyyy                ; Common
sc ; Zzzz                ; Unknown

答案 1 :(得分:0)

不知道它是否有帮助,但这是编写脚本和语言信息的绝佳资源:Omniglot。在使用regexp的这个功能时,可能需要了解这些不同的脚本。