Question

我正在尝试通过real-time认知服务在麦克风上转录Azure's SpeechToText两个人的谈话。问题是认知服务样本中的哪种情况最适合该情景（我假设对于该情景speech_recognize_continuous样本，但我并没有仅从文件中找到麦克风的情况），是否有可能拆分结果每个发言人的发言时间。

此演示的结果应如下所示：

    Person 1:
    Person 2:
    Person 1:
    Person 1:
    ....

Speech_recognition_language =“ de-DE”

在Windows操作系统上显示此对话的最佳方法是什么？

Answer 1

这里有一个从麦克风到文本进行语音教学的快速入门：https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/quickstarts/speech-to-text-from-microphone?tabs=dotnet%2Cx-android%2Clinux%2Cjava-runtime&pivots=programming-language-csharp

要执行您想做的事情，您必须为每个麦克风运行一个这样的程序，然后每个程序都必须将文本报告到中央位置以打印对话。

两人通过超细语言的脚步语音转换为文本（语音转换为文本天蓝色认知服务）

1 个答案: