Question

有没有人知道是否支持中文拼音？我用正确的中文拼音得到结果here（参见“显示罗马化”链接）。

谢谢。

Answer 1

我不知道Google AJAX语言API是否支持转换为拼音，但如果它们不支持，实际上并不太难以在您的on上进行可通过的转换。（从拼音到汉字（字符）的反向转换是很多更棘手，因为拼音非常有损。）

要自己进行转换，请抓住Unihan.zip的Unihan database，这是{{3}}的可下载版本。您真正关心的文件是Unihan_Readings.txt。它还包含一些你不关心的东西，它也以非常低效的方式存储，所以不要太担心大文件的大小。你应该提取你关心的东西并以更有效的方式存储它。

在其中你会找到这样的制表符分隔的行：

U+597D  kCantonese      hou2 hou3
U+597D  kDefinition     good, excellent, fine; well
U+597D  kHangul         호
U+597D  kHanyuPinlu     hao3(6060) hao1(142) hao4(115)
U+597D  kHanyuPinyin    21028.010:hǎo,hào
U+597D  kJapaneseKun    KONOMU SUKU YOI
U+597D  kJapaneseOn     KOU
U+597D  kKorean         HO
U+597D  kMandarin       HAO3 HAO4
U+597D  kTang           *xɑ̀u *xɑ̌u
U+597D  kVietnamese     háo
U+597D  kXHC1983        0445.030:hǎo 0448.030:hào

左列（“U + 597D”）是unicode代码点，中间列是属性名称，右列是属性值。您可以提取kHanyuPinyin属性或kMandarin属性。它们基本上编码相同的信息 - 只需使用更简单的格式来处理。（hǎo== HAO3，hào== HAO4，如果不明显的话）

你会注意到对于某些角色（比如我在这里选择的例子），有多个发音。这是一个棘手的问题。根据您想要的精度，您可以通过使用列出的第一个罗马化来逃避，因为它们按频率递减的顺序排列。（实际上，这是kHanyuPinyin与kMandarin略有不同的地方之一 - 它实际上有多个发音列表，每个都按频率排序。）

Answer 2

你可以通过翻译中文到中文来欺骗API。样本link。

Answer 3

谷歌翻译包括“显示/隐藏罗马化”，这比UNIHAN更好，原因有两个。首先，已知的单词在逻辑上以适当的方式组合在一起（至少它试图这样做）。其次，汉字有多个可能的发音。找出哪个拼音音译是正确的，这不是一个小问题。这就是翻译引擎所做的。

带有中文的Google AJAX语言API

3 个答案: