我正在寻找一种匹配已知数据集的方法,比方说一个MP3或wav文件列表,每个文件都是有人说话的样本。此时我知道文件ABC是人X说话。
然后,我想采取另一个样本,并根据已知的数据集进行一些语音匹配,以显示这种语音最有可能。
此外,我不一定关心这个人所说的话,只要我能找到一个匹配,即我不需要任何抄录或其他。
我知道CMU Sphinx不进行语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization(http://cmusphinx.sourceforge.net) / wiki / speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为此类工作的基础。
如果我要使用CMU,我该如何进行语音匹配?
另外,如果CMU Sphinx不是最好的框架,是否有一个替代的开源?
答案 0 :(得分:2)
对于博士论文来说,这是一个复杂性很高的学科。目前还没有好的和可靠的系统。
你要完成的任务非常复杂。你应该如何处理它取决于你的情况。
如果您很少有人认可,您可以尝试一些简单的方法,例如获取这些人的formants并将其与样本进行比较。
否则 - 您必须联系一些从事该主题工作的学者或陪审团来为您自己提供解决方案。无论哪种方式,正如我所说,这是一个难题。