我想出了一个想法,我想开发一个应用程序来区分/自动检测来自不同人的声音。
示例用例:在使用奥巴马和罗姆尼的数据进行培训后,应用程序将能够检测到任何一个人再次说话(不需要来自培训数据的相同内容)
我想知道是否有任何关于此的研究。 (我不知道如何搜索这个。我尝试了几个关键词并没有取得重大成果。)
如果没有,开始的好方法是什么?如何选择功能,数据表示,模型等。
谢谢!
答案 0 :(得分:5)
我在维基百科上发现了Speaker recognition,而An overview of text-independent speaker recognition: From features to supervectors又与{{3}}相关联(Kinnunen,Li,2010)。
摘自论文摘要:
本文概述了自动说话人识别技术,重点是文本无关识别。几十年来,人们一直在积极研究说话人识别。我们概述了经典方法和最先进的方法。