我想猜一下字符串的人类语言。我发现正则表达式中的Unicode脚本可以解决问题。但我不知道脚本名称代表什么。据我所知,Han
代表中国人,但其他人呢?
答案 0 :(得分:3)
我认为这就是我的需要。谢谢@Jesper。
从PropertyValueAliases.txt复制的Unicode脚本名称及其简写别名列表:
# Script (sc)
sc ; Aghb ; Caucasian_Albanian
sc ; Arab ; Arabic
sc ; Armi ; Imperial_Aramaic
sc ; Armn ; Armenian
sc ; Avst ; Avestan
sc ; Bali ; Balinese
sc ; Bamu ; Bamum
sc ; Bass ; Bassa_Vah
sc ; Batk ; Batak
sc ; Beng ; Bengali
sc ; Bopo ; Bopomofo
sc ; Brah ; Brahmi
sc ; Brai ; Braille
sc ; Bugi ; Buginese
sc ; Buhd ; Buhid
sc ; Cakm ; Chakma
sc ; Cans ; Canadian_Aboriginal
sc ; Cari ; Carian
sc ; Cham ; Cham
sc ; Cher ; Cherokee
sc ; Copt ; Coptic ; Qaac
sc ; Cprt ; Cypriot
sc ; Cyrl ; Cyrillic
sc ; Deva ; Devanagari
sc ; Dsrt ; Deseret
sc ; Dupl ; Duployan
sc ; Egyp ; Egyptian_Hieroglyphs
sc ; Elba ; Elbasan
sc ; Ethi ; Ethiopic
sc ; Geor ; Georgian
sc ; Glag ; Glagolitic
sc ; Goth ; Gothic
sc ; Gran ; Grantha
sc ; Grek ; Greek
sc ; Gujr ; Gujarati
sc ; Guru ; Gurmukhi
sc ; Hang ; Hangul
sc ; Hani ; Han
sc ; Hano ; Hanunoo
sc ; Hebr ; Hebrew
sc ; Hira ; Hiragana
sc ; Hmng ; Pahawh_Hmong
sc ; Hrkt ; Katakana_Or_Hiragana
sc ; Ital ; Old_Italic
sc ; Java ; Javanese
sc ; Kali ; Kayah_Li
sc ; Kana ; Katakana
sc ; Khar ; Kharoshthi
sc ; Khmr ; Khmer
sc ; Khoj ; Khojki
sc ; Knda ; Kannada
sc ; Kthi ; Kaithi
sc ; Lana ; Tai_Tham
sc ; Laoo ; Lao
sc ; Latn ; Latin
sc ; Lepc ; Lepcha
sc ; Limb ; Limbu
sc ; Lina ; Linear_A
sc ; Linb ; Linear_B
sc ; Lisu ; Lisu
sc ; Lyci ; Lycian
sc ; Lydi ; Lydian
sc ; Mahj ; Mahajani
sc ; Mand ; Mandaic
sc ; Mani ; Manichaean
sc ; Mend ; Mende_Kikakui
sc ; Merc ; Meroitic_Cursive
sc ; Mero ; Meroitic_Hieroglyphs
sc ; Mlym ; Malayalam
sc ; Modi ; Modi
sc ; Mong ; Mongolian
sc ; Mroo ; Mro
sc ; Mtei ; Meetei_Mayek
sc ; Mymr ; Myanmar
sc ; Narb ; Old_North_Arabian
sc ; Nbat ; Nabataean
sc ; Nkoo ; Nko
sc ; Ogam ; Ogham
sc ; Olck ; Ol_Chiki
sc ; Orkh ; Old_Turkic
sc ; Orya ; Oriya
sc ; Osma ; Osmanya
sc ; Palm ; Palmyrene
sc ; Pauc ; Pau_Cin_Hau
sc ; Perm ; Old_Permic
sc ; Phag ; Phags_Pa
sc ; Phli ; Inscriptional_Pahlavi
sc ; Phlp ; Psalter_Pahlavi
sc ; Phnx ; Phoenician
sc ; Plrd ; Miao
sc ; Prti ; Inscriptional_Parthian
sc ; Rjng ; Rejang
sc ; Runr ; Runic
sc ; Samr ; Samaritan
sc ; Sarb ; Old_South_Arabian
sc ; Saur ; Saurashtra
sc ; Shaw ; Shavian
sc ; Shrd ; Sharada
sc ; Sidd ; Siddham
sc ; Sind ; Khudawadi
sc ; Sinh ; Sinhala
sc ; Sora ; Sora_Sompeng
sc ; Sund ; Sundanese
sc ; Sylo ; Syloti_Nagri
sc ; Syrc ; Syriac
sc ; Tagb ; Tagbanwa
sc ; Takr ; Takri
sc ; Tale ; Tai_Le
sc ; Talu ; New_Tai_Lue
sc ; Taml ; Tamil
sc ; Tavt ; Tai_Viet
sc ; Telu ; Telugu
sc ; Tfng ; Tifinagh
sc ; Tglg ; Tagalog
sc ; Thaa ; Thaana
sc ; Thai ; Thai
sc ; Tibt ; Tibetan
sc ; Tirh ; Tirhuta
sc ; Ugar ; Ugaritic
sc ; Vaii ; Vai
sc ; Wara ; Warang_Citi
sc ; Xpeo ; Old_Persian
sc ; Xsux ; Cuneiform
sc ; Yiii ; Yi
sc ; Zinh ; Inherited ; Qaai
sc ; Zyyy ; Common
sc ; Zzzz ; Unknown
答案 1 :(得分:0)
不知道它是否有帮助,但这是编写脚本和语言信息的绝佳资源:Omniglot。在使用regexp的这个功能时,可能需要了解这些不同的脚本。