标签: conv-neural-network
我有一个朋友通过独特的发声方式交流(不使用任何语言),我想建立一个可以识别这些声音的CNN。我知道,语音识别要推广到很多人,需要大量的训练数据。但是,对于可以识别单个人的音频的CNN,有人能猜出每个发声需要多少个样本(假设我可能需要区分大约20种声音)?任何帮助,将不胜感激。