我如何区分两个人说话?如果有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名?周期性?
非常感谢能够回答此问题的任何人!
答案 0 :(得分:12)
这个问题的解决方案在于数字信号处理(DSP)。说话人识别是一个复杂的问题,它使计算机和通信工程技术携手并进。大多数说话人识别技术需要通过机器学习进行信号处理(通过扬声器数据库进行训练,然后使用训练数据进可遵循的算法大纲 -
有两个开源实现可以识别说话人 - ALIZE :http://mistral.univ-avignon.fr/index_en.html和 MARF :http://marf.sourceforge.net/。
我知道回答这个问题有点晚了,但我希望有人觉得它有用。
答案 1 :(得分:2)
即使是语音和信号处理方面的专家,这也是一个非常难的问题。此页面提供了更多信息:http://en.wikipedia.org/wiki/Speaker_recognition
一些建议的技术起点:
以往的各种技术 处理和存储声纹包括 频率估计,隐马尔可夫 模型,高斯混合模型, 模式匹配算法,神经网络 网络,矩阵表示,矢量 量化和决策树。一些 系统也使用“反扬声器” 技术,如队列模型,和 世界模特。
答案 2 :(得分:0)
只有两个人可以区分,如果他们说出相同的单词或短语会使这更容易。我建议从简单的事情开始,只根据需要增加复杂性。
首先,我会尝试数字波形的样本计数,按时间和幅度分组,或者(如果你有方便的软件功能)整个话语的FFT。我首先考虑一个基本的建模过程,例如线性判别(或任何你已经可用的)。
答案 3 :(得分:0)
另一种方法是使用麦克风阵列并区分声源的位置和方向。我认为这是一种更简单的方法,因为位置计算比从单声道或立体声源分离不同的扬声器要复杂得多。