应用错误收集

时间：2011-02-02 16:40:26

标签： python unicode normalization unicode-normalization

从平假名和片假名图表看，应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表来非常简单。有谁知道这项工作已在哪里完成了？

答案 0 :(得分：1)

你为什么要这样做呢？片假名传统上用于从其他语言借用的单词，而平假名用于日语母语。通过将日文文本规范化为一种或另一种形式，你实际上可能会阻碍它的阅读（至少对我而言，因为我通过规范化而失去上下文会更难）。

但是在回答你的问题时，这似乎符合你的要求： JCONV

答案 1 :(得分：1)

你可以使用str.translate快速完成你想做的事。

然而，为什么你想这样做并不是很明显。

我称之为使用基于拉丁语的字母表编写的语言进行规范化将包括小写，标准化空格和剥离重音等，以便结果为ASCII。这样做的目的不是用于显示，而是用于在某种模糊搜索/匹配/查找场景中比较用户输入的文本。重点是错误的重音错误很常见，即使是有关语言的本土作家也是如此。

鉴于平假名在日语书写系统中的作用（单词通常有汉字词干和平假名后缀），我无法想象将平假名字符改为片假名有什么用处......请赐教。