在15秒内将天蓝色语音转换为文本api语音

时间:2019-07-07 19:42:30

标签: python-3.x azure api speech-to-text

我正在尝试找出如何在python中将Azure语音设置为文本SDK API以便识别文件的过程。

我在这里从python quickstart尝试了这段代码:

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/master/quickstart/python/quickstart.py

        speech_config = speechsdk.SpeechConfig(subscription=cls.speech_key, region=cls.service_region )
        audio_config = speechsdk.audio.AudioConfig(filename=file_name)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
        result = speech_recognizer.recognize_once()

        if result.reason == speechsdk.ResultReason.RecognizedSpeech:
            response_str = result.text
            # print("Recognized: {}".format(result.text))
        elif result.reason == speechsdk.ResultReason.NoMatch:
            response_str = result.no_match_details
            print("No speech could be recognized: {}".format(result.no_match_details))
        elif result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = result.cancellation_details
            response_str = cancellation_details.reason
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                response_str = cancellation_details.error_details
                print("Error details: {}".format(cancellation_details.error_details))

所有工作,除了仅识别出前15秒的事实。但是,此页面:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text 说如果我使用SDK api(而不是REST),则可以转录更长的语音。

我的问题是:

  1. 如何设置参数以接受更长的语音
  2. 在哪里可以找到有关输出类型的python api设置的详细信息。理想情况下,如果识别器返回带有识别置信度且不带标点的JSON。

任何想法都会受到赞赏

1 个答案:

答案 0 :(得分:0)

  

1。如何设置参数以接受更长的语音

事实上,您已经在问题中找到了证据。 doc已经表明您需要使用连续转录。

enter image description here

因此,官方python示例使用recognize_once(),您需要使用start_continuous_recognition()方法来替换它。请查看此link

enter image description here

  

2。在哪里可以找到有关输出类型的python api设置的详细信息。理想情况下,如果识别器使用以下命令返回JSON   识别信心,没有标点符号。

您可以使用以下代码查看json结构:speech_recognizer.recognize_once().json()

enter image description here