应用错误收集

我正在写一个Elman Simple Recurrent Network。我想给它一些单词序列，每个单词都是一个音素序列，我想要很多训练和测试数据。

所以，我需要的是一个英语单词集，以及它们组成的音素，写成类似ARPAbet或SAMPA的东西。英国英语会很好，但只要我知道我在处理什么，就不是必需的。有什么建议吗？

我目前没有时间或倾向于编写某些内容，这些内容可以从一个单词中包含来自语音或书面数据的内容，因此请不要提出这一点。

注意：我知道CMU Pronouncing Dictionary，但它声称它只基于ARPABet符号集 - 任何人都知道是否存在任何差异，如果是，那么它们是什么？（如果没有，那么我可以使用它......）

编辑：CMUPD 0.7a Symbol list - 元音可能有词汇压力，并且有（ARPABET标准符号）变体表明这一点。