我正在寻找一个包含bopomofo和/或拼音中所有汉字普通话发音的数据集。此外,我需要开源数据集,我可以将其复制到我自己的代码库中。
答案 0 :(得分:4)
听起来您可能正在寻找Unihan数据库。 Unihan数据库由Unicode Consortium维护。
Unihan数据库是Unicode Consortium集体知识的存储库 关于Unicode标准中包含的CJK统一表意文字。它包含 映射数据以允许与其他编码字符集和其他编码字符集进行转换 有助于实现对使用汉语的各种语言的支持的信息 表意文字。
例如,这里是the data for 爱。
这是Unihan数据库的the description of the organization and content。请务必阅读以了解数据的含义。
如果这是您想要的信息,您可以download the ZIP archive包含所有这些数据。
Unihan数据库没有Bopomofo(注音)的发音,但它有拼音读数。从拼音转换到注音很简单;有很多在线工具可以帮到你。
对于许可问题,Unihan数据库数据文件具有a liberal copyright notice。因此,您不应该在自己的软件中使用该数据时遇到任何问题。
答案 1 :(得分:0)
这是一个迟到的条目,但我去年正在寻找相同的东西,最终根据一堆不同的数据集编译我自己的character / bopomofo数据库。我已经把足够的工作放在这个东西上来彻底称它为我自己,所以你应该检查一下!它是我用bopomofo排序的rubygem的一部分(我有一个不会让我更改数据库colaltion设置的系统)https://github.com/nallan/a-b-chi