要实现高精度(<15%WER)扬声器相关的ASR系统,扬声器需要多少训练数据?
此外,扬声器相关的模型通常补充了更大的音频语音库(来自许多发言者)?或者他们只使用单个发言人的数据?
答案 0 :(得分:0)
要实现高精度(<15%WER)扬声器相关的ASR系统,扬声器需要多少训练数据?
30-40小时。
此外,扬声器相关的模型通常补充了更大的音频语音(来自许多发言者)?
有时。
或者他们只使用单个发言人的数据?
可以从1-2小时的扬声器数据和300多小时的其他扬声器数据构建扬声器相关扬声器。收集单个说话人数据的路径不那么简单。
答案 1 :(得分:0)
答案因您使用的库而异。对于嵌入式语音控制系统,我使用Sensory的TrulyHandsFree SDK进行扬声器特定培训。他们的过程从一个独立于扬声器的模型开始调整识别网络并在此基础上进行调整。要执行相当准确的说话人识别,需要512到1024个特定于讲话者的训练样本,因此需要45分钟到3个小时的数据。
但是,如果您不需要说话人识别,默认模型的准确率超过85%,假设语法规模较小而没有任何特定于讲话者的培训。我所做的所有工作都是使用相对较小的语法,因此说话人识别是我们进行讲师特定培训的唯一原因。
如果您需要任何类型的无限制ASR,那么这超出了我的实践范围。