我希望通过汽车环境中的语音分离来提高语音识别的准确性。要处理的声音是一个挑战,因为噪音,无线电音乐和其他演讲者的声音可能总是混合在一起。
所以我想将声音分成两部分,一部分是我的声音,另一部分是定义的一般声音。为此,我通过HTK训练一个与扬声器相关的GMM模块(只是我的声音),然后使用FASST分离声音。你觉得这会起作用吗?
答案 0 :(得分:1)
对于NMF,我会改用openblissart。另一个好主意是如果你还没有这样做的话就用立体声录音。
从切换到DNN模型而不是HMM和Kaldi,您可以获得大多数改进,远远超过任何源分离。使用DNN,您还可以进行多阶段训练,它的性能甚至优于噪音分离。您可以查看Kaldi源中的CHIME实验设置,了解如何训练噪声鲁棒的识别器。