我正在尝试通过real-time
认知服务在麦克风上转录Azure's SpeechToText
两个人的谈话。问题是认知服务样本中的哪种情况最适合该情景(我假设对于该情景speech_recognize_continuous
样本,但我并没有仅从文件中找到麦克风的情况),是否有可能拆分结果每个发言人的发言时间。
此演示的结果应如下所示:
Person 1:
Person 2:
Person 1:
Person 1:
....
Speech_recognition_language =“ de-DE”
在Windows操作系统上显示此对话的最佳方法是什么?
答案 0 :(得分:0)
这里有一个从麦克风到文本进行语音教学的快速入门:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/quickstarts/speech-to-text-from-microphone?tabs=dotnet%2Cx-android%2Clinux%2Cjava-runtime&pivots=programming-language-csharp
要执行您想做的事情,您必须为每个麦克风运行一个这样的程序,然后每个程序都必须将文本报告到中央位置以打印对话。