应用错误收集

我正在开发一个基于python的NLP项目，为大量单词找到声音。

该项目要求我在我的集合中导出单词的粗略发音。我主要关心的是辅音。我将使用CMU发音字典，但并非我处理的所有单词都在他们的字典中。 DoubleMetaphone给出了辅音的合适近似值，但它针对名称进行了优化，并且对于我想要捕捉的某些声音非常粗糙（例如，初始＆＃34; w＆＃34; ）。我考虑过调整DoubleMetaphone算法，但这是一个令人生畏的想法。

我的问题：除了Soundex / Metaphone / NYSIIS / MRA之外，是否还有现有的项目进行语音发音分析？使用与CMU相同的ARPAbet的东西会非常精彩。

如何从一个不在CMU语音词典中的aribtrary词中获得粗略的类似ARPAbet的发音？

0 个答案: