我正在写一个Elman Simple Recurrent Network。我想给它一些单词序列,每个单词都是一个音素序列,我想要很多训练和测试数据。
所以,我需要的是一个英语单词集,以及它们组成的音素,写成类似ARPAbet或SAMPA的东西。英国英语会很好,但只要我知道我在处理什么,就不是必需的。有什么建议吗?
我目前没有时间或倾向于编写某些内容,这些内容可以从一个单词中包含来自语音或书面数据的内容,因此请不要提出这一点。
注意:我知道CMU Pronouncing Dictionary,但它声称它只基于ARPABet符号集 - 任何人都知道是否存在任何差异,如果是,那么它们是什么? (如果没有,那么我可以使用它......)
编辑:CMUPD 0.7a Symbol list - 元音可能有词汇压力,并且有(ARPABET标准符号)变体表明这一点。
答案 0 :(得分:3)
CMUdict应该没问题。 “Arpabet符号集”仅仅意味着Arpabet。如果存在任何细微差别,则应在CMUdict文档中对其进行解释。
如果您需要的数据更接近现实生活,而不是将单个单词的字典发音串在一起,请查找语音转录语料库,例如TIMIT。