Question

我对Azure的sdk相当陌生，因此很可能我错过了一些明显的道歉内容。

我一直在从事一个项目，我想将音频文件/流从一种语言翻译成另一种语言。当他们整个对话都用一种语言（所有西班牙语）进行时，它的工作效果不错，但是当我在英语和西班牙语的真实对话中进行交流时，它就崩溃了。它会尝试将英语单词识别为西班牙语单词（因此，它会将诸如“我很抱歉”之类的文字转录成乱码的西班牙语）。

据我所知，您可以设置多种目标语言（要翻译成的语言），但是只能设置一种语音识别语言。这似乎暗示着它无法处理多种语言（例如与翻译人员打来的电话）或说话者在两种语言之间切换的对话。有没有一种方法可以使它与多种语言一起使用，或者仅仅是微软还没有完全实现？

这是我现在拥有的代码（这只是他们github上的示例的轻巧修改版本）：

// pull in the required packages.
var sdk = require("microsoft-cognitiveservices-speech-sdk");

(function() {
"use strict";

    module.exports = {
    main: function(settings, audioStream) {

        // now create the audio-config pointing to our stream and
        // the speech config specifying the language.
        var audioConfig = sdk.AudioConfig.fromStreamInput(audioStream);
        var translationConfig = sdk.SpeechTranslationConfig.fromSubscription(settings.subscriptionKey, settings.serviceRegion);

        // setting the recognition language.
        translationConfig.speechRecognitionLanguage = settings.language;

        // target language (to be translated to).
        translationConfig.addTargetLanguage("en");

        // create the translation recognizer.
        var recognizer = new sdk.TranslationRecognizer(translationConfig, audioConfig);

        recognizer.recognized = function (s, e) {
            if (e.result.reason === sdk.ResultReason.NoMatch) {
                var noMatchDetail = sdk.NoMatchDetails.fromResult(e.result);
                console.log("\r\nDidn't find a match: " + sdk.NoMatchReason[noMatchDetail.reason]);
            } else {
                var str = "\r\nNext Line: " + e.result.text + "\nTranslations:";

                var language = "en";
                str += " [" + language + "] " + e.result.translations.get(language);
                str += "\r\n";

                console.log(str);
            }
        };

        //two possible states, Error or EndOfStream
        recognizer.canceled = function (s, e) {
            var str = "(cancel) Reason: " + sdk.CancellationReason[e.reason];
            //if it was because of an error
            if (e.reason === sdk.CancellationReason.Error) {
                str += ": " + e.errorDetails;
                console.log(str);
            }
            //We've reached the end of the file, stop the recognizer
            else {
                recognizer.stopContinuousRecognitionAsync(function() {
                console.log("End of file.");

                recognizer.close();
                recognizer = undefined;
                },
                function(err) {
                console.trace("err - " + err);
                recognizer.close();
                recognizer = undefined;
                })
            }
        };


        // start the recognizer and wait for a result.
        recognizer.startContinuousRecognitionAsync(
            function () {
                console.log("Starting speech recognition");
            },
            function (err) {
                console.trace("err - " + err);

                recognizer.close();
                recognizer = undefined;
            }
        );
    }

    }
}());

Answer 1

根据官方文档Language and region support for the Speech Services的{{3}}部分，如下所示，我认为您可以使用Speech translation代替Speech-To-text来满足您的需求。

语音翻译

语音翻译API支持不同的   语音到语音和语音到文本翻译的语言。的   源语言必须始终来自“语音到文本”语言表。   可用的目标语言取决于翻译是否   目标是语音或文本。您可以将传入的语音转换为更多语音   比Speech translation。这些语言的一部分可用于   60 languages。

speech synthesis

与此同时，Speech translation的官方示例代码为。

我不会说西班牙语，所以我不禁为您测试英语和西班牙语的音频。

希望有帮助。

Answer 2

截至目前（八月），语音SDK转换支持将一种输入语言转换成多种输出语言。

正在开发中的服务支持对口语的识别。这些将使我们能够将多种输入语言翻译成多种输出语言（您将在配置中指定的两种语言）。尚无可用的ETA ...

狼帮

多种语言的Azure语音到文本翻译

2 个答案: