标签: .net speech-recognition audio sound-synthesis sound-recognition
我正在考虑创建一个应用程序。
以下是描述: 1.人们会将以前录制的对话上传到服务器。 2.来自服务器的应用程序将检测该语音的音调,速度,重点,发音等,并创建个人组合。 3.如果您呼叫服务器,则服务器应用程序将以该人的确切语音(在步骤2中检测到其语音服务器)与您通话。
请分享链接,资源,pdf演示文稿,无论您认为对此项目有用......
主要是我坚持使用STEP 2.我不清楚如何分解语音并对其进行分析并获取速度,音高等信息。语音部分是否有现有的API?
答案 0 :(得分:0)
我能够找到这个:
您也可以查看此SO问题: