相关链接:https://www.tensorflow.org/tutorials/sequences/audio_recognition
我应该如何修改TensorFlow“简单音频识别”培训环境(输入样本数量,触发关键词的选择,培训参数等),以对唯一触发关键词(多词或单词)进行可靠的识别单词)在普通对话中?
原始的TensorFlow“简单音频识别”带有10个单触发关键字,持续时间为1秒。为了避免在正常对话中检测到单个触发关键字并引起误报,我记录了以下两个多词触发关键字400次(4个不同的人乘以100倍),持续时间分别为1.5秒:PLAY MUSIC,STOP MUSIC。遵循完全相同的训练步骤并补偿了代码中新的1.5秒持续时间后,如果正确发音,我将100%识别出这两个多词触发关键字;但是,进一步的测试还表明,当这些触发关键字的任何发音(例如, STOP BLA BLA BLA,STOP VIDEO,PLAY BLA BLA BLA,PLAY VIDEO等。
感谢您的亲切回应, 下午
答案 0 :(得分:0)
您应该将垃圾语音添加到训练数据集中,不确定是否这样做。
对于很长的短语,检测较小的块并确保它们都存在会更可靠-即为“播放”和“音乐”使用单独的检测器。
例如,如SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS 中所述,Google在其“ ok google”中分别检测到“ ok”和“ google”。