我正在使用Microsoft语音SDK(及其示例代码)抄录多参与者对话。转录工作正常,但是对于提供签名的人,它返回$ref$
而不是用户ID;对于没有签名的人,它返回Unidentified
。
我没有使用Roobo,而是使用Audacity准备的声音文件成为16位16 kHz PCM音频的八个通道。转录确实有效,因此我认为声音文件不是问题。似乎该服务正确识别了与签名文件相关的声音(例如,它在文本的正确位置从$ ref $切换到Unknown),但似乎无法访问发言人姓名(模型中的userid)
不幸的是,除了提供的Microsoft示例(https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to-use-conversation-transcription-service)之外,我找不到任何在线要引用的C#代码。
我看到这里有一个帖子类似的问题(但没有答案):Azure Speech To Text: Conversation Transcribing userid always return $ref$
有人尝试过并使其正常工作吗?
答案 0 :(得分:0)
似乎音频格式不正确。应该是16位,16kHZ,8个通道(立体声左= 1,立体声右= 2,单声道= 3,单声道= 4,单声道= 5,单声道= 6,单声道= 7,静音单声道= 8)。
Here,您可以找到enrollment_audio_steve.wav,enrollment_audio_katie.wav和对话katiesteve.wav。格式正确。但是,不允许从enrollment_audio_katie.wav创建签名。因此,它与Steve一起工作。
似乎它仅适用于SpeechSDK设备。但是我可以根据这种格式录制自己的音频。