我在哪里可以找到汉字bopomofo /拼音数据?

时间:2014-01-09 23:39:49

标签: internationalization dataset chinese-locale opendata

我正在寻找一个包含bopomofo和/或拼音中所有汉字普通话发音的数据集。此外,我需要开源数据集,我可以将其复制到我自己的代码库中。

2 个答案:

答案 0 :(得分:4)

听起来您可能正在寻找Unihan数据库。 Unihan数据库由Unicode Consortium维护。

  

Unihan数据库是Unicode Consortium集体知识的存储库   关于Unicode标准中包含的CJK统一表意文字。它包含   映射数据以允许与其他编码字符集和其他编码字符集进行转换   有助于实现对使用汉语的各种语言的支持的信息   表意文字。

例如,这里是the data for 爱

这是Unihan数据库的the description of the organization and content。请务必阅读以了解数据的含义。

如果这是您想要的信息,您可以download the ZIP archive包含所有这些数据。

Unihan数据库没有Bopomofo(注音)的发音,但它有拼音读数。从拼音转换到注音很简单;有很多在线工具可以帮到你。

对于许可问题,Unihan数据库数据文件具有a liberal copyright notice。因此,您不应该在自己的软件中使用该数据时遇到任何问题。

答案 1 :(得分:0)

这是一个迟到的条目,但我去年正在寻找相同的东西,最终根据一堆不同的数据集编译我自己的character / bopomofo数据库。我已经把足够的工作放在这个东西上来彻底称它为我自己,所以你应该检查一下!它是我用bopomofo排序的rubygem的一部分(我有一个不会让我更改数据库colaltion设置的系统)https://github.com/nallan/a-b-chi