从Ethiopic(和其他)到ASCII的音译(ሀ - > ha;ü - > ue)

时间:2010-09-10 04:00:27

标签: utf-8 transliteration

阅读阿姆哈拉语(Geez / Ethiopic)字母时,我还不是很好。

如果我有Ge'ez(埃塞俄比亚)字母(http://en.wikipedia.org/wiki/Ge%27ez_language)的文字,我想将它们音译为ASCII。

当我使用LYNX Textmode浏览器到http://www.addismap.com/am/(阿姆哈拉语的网页)时,它向我展示了“edis map:yeedis ebeba karta”。如何在Python,Bash或PHP中访问此功能?他们使用哪种API?

似乎不是iconv:

$ iconv -f UTF-8 -t ASCII//TRANSLIT
Input:    ሀ ለ ሐ መ ሠ ረ ሰ
Output:   ? ? ? ? ? ? ?

2 个答案:

答案 0 :(得分:2)

ICU http://icu-project.org/有一个阿姆哈拉语 - 拉丁语变换,它会将你的文字变成“hāleḥāmešerese”。您可以使用命令行中的uconv -x 'Amharic/BGN-Latin'来使用它,或使用pyicu

答案 1 :(得分:0)

Unicode Common Locale Data Repository定义了一些音译。 Unidecode(或其Python port)的内容更多。