流音频到神经网络

时间:2019-06-27 02:10:24

标签: machine-learning speech-recognition speech

我正在尝试创建一个执行说话人识别的神经网络。我希望能够提供它以使其能够接收流音频-即我想对100ms帧执行部分识别,然后在末尾计算平均值。

我想知道以下两个可预见的选项中哪个是最好的。

  • 训练100ms音频片段上的网络
  • 使用任意长度的音频片段,并将随后的100ms片段馈入某种循环网络。我当时认为,类似于文本分析,维护一些状态信息可能对实时说话者识别很有帮助。

有人在这方面有一些指导吗?谢谢。

0 个答案:

没有答案