如何将带有PyICU的unicode文本音译为ASCII?

时间:2013-01-22 13:32:37

标签: python character-encoding ascii icu pyicu

PyICU库,我理解它可用于音译字符串。但是没有文档。任何人都有一个简单的例子,它使用PyICU

将unicode字符串音译为ASCII

C ++ ICU文档for transliteration is here,但我不明白如何从Python调用它。

2 个答案:

答案 0 :(得分:1)

以下是PyICU的一个不错的备忘单:https://gist.github.com/dpk/8325992

这是一个稍作修改的示例:

>>> import icu
>>> tl = icu.Transliterator.createInstance('Any-Latin; Latin-ASCII')
>>> tl.transliterate('Ψάπφω')
'Psappho'

答案 1 :(得分:0)

从你给出的第一个链接,我假设 1)你已经建立了PyICU 2)您已确保可以访问该库 (如果您没有上述内容,请参阅链接页面上的文档)

我从你的链接中找到了这个文档:

  

要将以utf-8以外的编码编码的Python str转换为ICU UnicodeString,请使用UnicodeString(str,encodingName)构造函数。

所以你需要找到encodingName,我想你的是ASCII(你应该检查以确保它是正确的,我没有打扰)

然后我想你会做这样的事情:

>>> from icu import UnicodeString
 . 
 .
 . 
>>> string = UnicodeString(strToConvert, ASCII)

这只是一个简单的想法,ymmv。您可能想查看网站,因为它提供了更多示例以及如何以“Python方式”或“ICU方式”执行操作。 干杯!