Elman SRN的Word /音素语料库(英语)

时间:2011-09-07 04:54:17

标签: nlp neural-network phoneme

我正在写一个Elman Simple Recurrent Network。我想给它一些单词序列,每个单词都是一个音素序列,我想要很多训练和测试数据。

所以,我需要的是一个英语单词集,以及它们组成的音素,写成类似ARPAbet或SAMPA的东西。英国英语会很好,但只要我知道我在处理什么,就不是必需的。有什么建议吗?

我目前没有时间或倾向于编写某些内容,这些内容可以从一个单词中包含来自语音或书面数据的内容,因此请不要提出这一点。

注意:我知道CMU Pronouncing Dictionary,但它声称它只基于ARPABet符号集 - 任何人都知道是否存在任何差异,如果是,那么它们是什么? (如果没有,那么我可以使用它......)

编辑:CMUPD 0.7a Symbol list - 元音可能有词汇压力,并且有(ARPABET标准符号)变体表明这一点。

1 个答案:

答案 0 :(得分:3)

CMUdict应该没问题。 “Arpabet符号集”仅仅意味着Arpabet。如果存在任何细微差别,则应在CMUdict文档中对其进行解释。

如果您需要的数据更接近现实生活,而不是将单个单词的字典发音串在一起,请查找语音转录语料库,例如TIMIT。