从音频文件中检测特定单词的解决方案是什么?
我有很多音频文件(相同的编解码器),每个文件只有大约15秒的时间。 (注意:所有音频文件都是同一个人/相同的重音)
例如:
test1.mp3 播放Hello Tom, what are you doing today?
test2.mp3 播放Hello Paul, what are you doing today?
test3.mp3 播放Good morning John - It is lovely weather today
我需要一种方法来检测每个音频文件中可爱的天气或你是什么的单词。
我可能有100个音频文件说“你今天在做什么”,其他文件说“你今天在做什么?” - 我只需要知道每个文件的状态/类型是什么..
检查频率位的解决方案是什么,而不是使用语音识别工具。
答案 0 :(得分:2)
您实质上是在询问"我如何进行通用语音识别"?
解决方案是:
如果您的平台提供开箱即用的语音识别功能,请使用它。例如,Microsoft Windows。 http://msdn.microsoft.com/en-us/library/hh323805.aspx
如果您的平台没有,那么您需要集成第三方语音识别软件包,例如Lernaut& Hauspie(现为Nuance),Dragon等。这可能涉及付钱。
编辑:我已将此标记为Text-to-speech (voice generation) and speech-to-text (voice recognition) APIs?的副本,其中包含对#34的全面回答;如何进行语音识别"。