关于TTS(文本到语音) SSML(https://www.w3.org/TR/speech-synthesis11/)现在似乎是语音合成“元数据”规范的标准语言,用于控制语音的各个方面,如发音,音量,音调,速率等,跨越不同的合成平台(它已被采用为Amazon Alexa,Google Actions和其他API的标准。)
相反,关于ASR(自动语音识别) 是否有类似的情绪分析标准?
我的意思是,一个可能的标准参数识别记录语音中的情绪分析?目前,我没有在着名的Google Actions / Amazon Alexa平台API中看到类似的内容。我错了?
有什么想法吗?