标签: machine-learning speech-recognition speech
我正在尝试创建一个执行说话人识别的神经网络。我希望能够提供它以使其能够接收流音频-即我想对100ms帧执行部分识别,然后在末尾计算平均值。
我想知道以下两个可预见的选项中哪个是最好的。
有人在这方面有一些指导吗?谢谢。