machine-learning - 流音频到神经网络 - Thinbug

流音频到神经网络

时间：2019-06-27 02:10:24

标签： machine-learning speech-recognition speech

我正在尝试创建一个执行说话人识别的神经网络。我希望能够提供它以使其能够接收流音频-即我想对100ms帧执行部分识别，然后在末尾计算平均值。

我想知道以下两个可预见的选项中哪个是最好的。

训练100ms音频片段上的网络
使用任意长度的音频片段，并将随后的100ms片段馈入某种循环网络。我当时认为，类似于文本分析，维护一些状态信息可能对实时说话者识别很有帮助。

有人在这方面有一些指导吗？谢谢。

0 个答案:

没有答案