我正在开发一个使用生物识别系统来保护系统的项目。我们计划使用人声来保护系统。
想法是允许该人说出一些单词或句子,系统将以数字格式存储该语音。下次当人想要进入系统时,他/她必须说一些可能与之前使用的词语不同或不同的词语。
我们不想匹配单词,但希望匹配语音频率。
我已经阅读了一些关于这个系统的研究论文,但那些论文没有任何实施细节。
所以只想知道是否有任何软件/ API可以将模拟语音转换为数字格式,并且还会告诉我们语音的频率。
到目前为止,我正在开发基于Web的普通应用程序,所以我知道普通的API和平台,如Java EE,C#等,但我对这种应用程序没有任何经验。
请指教!!!
答案 0 :(得分:2)
这是一个很好的起点:http://marsyas.info/
这是一个用于音频处理的开源软件框架。他们列出了一系列以各种方式使用其框架的项目,因此您可能从中汲取灵感。 http://marsyas.info/about/projects。特别是Telligence项目似乎最接近您的需求,因为它用于性别分类音频:http://marsyas.info/about/projects#5Teligence
答案 1 :(得分:2)
我相信这个项目有两个步骤:
第一步是将语音从模拟输入录制成数字格式(让我们假设wav-pcm)。为此,您可以在C#中使用DirectShow API,或在此项目中使用标准Wav-In:http://www.codeproject.com/KB/audio-video/cswavrec.aspx。您可以考虑稍后压缩音频文件,有很多选项,在Windows中您可以考虑使用Windows Media Format SDK来避免其他格式的许可问题。
第二步是构建或使用语音识别框架,如果要构建识别框架,您可能需要为声音片段定义一组“功能”并选择+实现识别算法。有许多方法可供选择,IEEE和ACM.org网站通常都是很好的资源。如果您想使用现有框架,您可能需要考虑Nuance Recognizer(商业)或http://cmusphinx.sourceforge.net(开源)。
希望这有帮助。
答案 2 :(得分:1)