应用错误收集

如何将人声转换为数字格式？

时间：2011-02-27 05:49:34

标签： security speech-recognition speech-to-text analog-digital-converter

我正在开发一个使用生物识别系统来保护系统的项目。我们计划使用人声来保护系统。

想法是允许该人说出一些单词或句子，系统将以数字格式存储该语音。下次当人想要进入系统时，他/她必须说一些可能与之前使用的词语不同或不同的词语。

我们不想匹配单词，但希望匹配语音频率。

我已经阅读了一些关于这个系统的研究论文，但那些论文没有任何实施细节。

所以只想知道是否有任何软件/ API可以将模拟语音转换为数字格式，并且还会告诉我们语音的频率。

到目前为止，我正在开发基于Web的普通应用程序，所以我知道普通的API和平台，如Java EE，C＃等，但我对这种应用程序没有任何经验。

请指教!!!

3 个答案:

答案 0 :(得分：2)

这是一个很好的起点：http://marsyas.info/

这是一个用于音频处理的开源软件框架。他们列出了一系列以各种方式使用其框架的项目，因此您可能从中汲取灵感。 http://marsyas.info/about/projects。特别是Telligence项目似乎最接近您的需求，因为它用于性别分类音频：http://marsyas.info/about/projects#5Teligence

答案 1 :(得分：2)

我相信这个项目有两个步骤：

第一步是将语音从模拟输入录制成数字格式（让我们假设wav-pcm）。为此，您可以在C＃中使用DirectShow API，或在此项目中使用标准Wav-In：http://www.codeproject.com/KB/audio-video/cswavrec.aspx。您可以考虑稍后压缩音频文件，有很多选项，在Windows中您可以考虑使用Windows Media Format SDK来避免其他格式的许可问题。

第二步是构建或使用语音识别框架，如果要构建识别框架，您可能需要为声音片段定义一组“功能”并选择+实现识别算法。有许多方法可供选择，IEEE和ACM.org网站通常都是很好的资源。如果您想使用现有框架，您可能需要考虑Nuance Recognizer（商业）或http://cmusphinx.sourceforge.net（开源）。

希望这有帮助。

答案 2 :(得分：1)

http://www.loquendo.com/en/products/speaker-verification/
http://www.nuance.com/for-business/by-solution/contact-center-customer-care/cccc-solutions-services/verifier/index.htm
（由于报告的病毒内容而删除了两个链接）
http://www.persay.com/products.asp