使用SAPI或同等功能的SR将音频文件转换为文本

时间:2016-10-09 12:01:53

标签: c++ com speech-recognition sapi

首先让我解释一下我的目标。我正在努力的目标是提供输入.wav文件,将其发送到某种语音识别API,并返回带有转录的文本文件。我想到的应用程序非常简单。我不要求它被解析为语法或标点符号。它可以返回一个很长很长的句子 - 这很好。我会将每个转录的单词视为文本文件(.tsv或.csv格式)中的观察

然而,一个棘手的数据(棘手,因为我所评论的95%的所有第三方音频转录服务都不向用户提供此类数据)我确实需要是SR猜测的每个单词的[0.00 - 1.00]置信度得分。我想将该数据存储在文本文件的新列中,该文本文件包含.tsv或.csv格式的转录文本。

就是这样。那是我的目标。我的目标似乎是可能的:以下是相关文章中专家的引用:

Convert Audio(Wav file) to Text using SAPI?

  

SAPI当然可以做你想要的。从进程内识别器开始,   将您的音频连接为文件流,设置听写模式和关闭   你走了。

以下是.wav转录置信度分数的相关文档:

https://msdn.microsoft.com/en-us/library/jj127911.aspx

https://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.recognizedwordunit.confidence(v=office.14).aspx

每个人都听起来如此简单,但现在让我解释一下这个问题;为什么我要发一个问题。问题在于,对我来说,我的目标是遥不可及的,因为我对c ++或COM几乎一无所知。我认为SAPI是日常Windows体验的一部分,并且拥有专用,友好的用户界面。所以我越来越担心我研究这个程序。但是我仍然认为原则上这是一件非常简单的事情,所以我很乐观。

我有Python和一点JS的知识。我知道Python对其他语言有代码魔力,所以我确信Python可以通过这种方式与SAPI接口,但由于我不知道c ++,我认为这不会让我更好。

所以重申一下,尽管技能不匹配,我仍然偏向于SAPI,因为所有用户友好的替代品,如Dragon,Nuance,Chrome插件等,都不能提供我需要的数据粒度。 / p>

现在让我谈谈我的问题的核心:

  1. 如上所述,有人可以给我评估我“目标”的难度吗?可以在一个.bat文件中完成吗?非常感谢示例代码。

2 个答案:

答案 0 :(得分:2)

老实说,考虑到你在问题中描述的方法,这是相当困难的。现有的SAPI引擎要么不在所有上进行听写(例如,通过Microsoft.Speech.Recognition提供服务器"引擎),要么需要培训以了解详细信息给定的语音(例如,"桌面"引擎可通过System.Speech.Recognition获得)。

Windows运行时识别器(Windows.Media.SpeechRecognition)支持听写并提供置信度值,但不支持从流中识别。

使用您正在描述的方法,我会使用Bing Speech API,因为它通过REST API提供您想要的置信度值。

答案 1 :(得分:2)

这可能不言而喻,但如果你不能很好地处理C作为一种语言,我认为你会发现难以使用SAPI的C接口。我编写了一个程序,它几乎完全按照你之前谈论的内容来测试这个概念。首先是代码转储:

#include "dirent.h"
#include <iostream>
#include <string>
#include <sapi.h>
#include <sphelper.h>

int main(int argc, char* argv[]){

    DIR *dir;
    struct dirent* entry;
    struct stat* statbuf;
    ::CoInitialize(NULL);
    if((dir = opendir(".")) != NULL){
        while((entry = readdir(dir)) != NULL){
            char extCheck[260];
            strcpy(extCheck, entry->d_name);
            if(strlen(extCheck) > 4 && !strcmp(strlwr(extCheck) + strlen(extCheck)-4, ".wav")){
                //printf("%s\n",entry->d_name);
                //1. Find the wav files
                //2. Check the wavs to make sure they're the correct format
                //3. Output any errors to the error log
                //4. Produce the text files for the wavs
                //5. Cleanup and exit
                FILE* fp;
                std::string fileName = std::string(entry->d_name,entry->d_name + strlen(entry->d_name)-4);
                fileName += ".txt";
                fp = fopen(fileName.c_str(), "w+");
                HRESULT hr = S_OK;
                CComPtr<ISpStream> cpInputStream;
                CComPtr<ISpRecognizer> cpRecognizer;
                CComPtr<ISpRecoContext> cpRecoContext;
                CComPtr<ISpRecoGrammar> cpRecoGrammar;
                CSpStreamFormat sInputFormat;
                hr = cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);
                hr = cpInputStream.CoCreateInstance(CLSID_SpStream);
                hr = sInputFormat.AssignFormat(SPSF_16kHz16BitStereo);
                std::string sInputFileName = entry->d_name;
                std::wstring wInputFileName = std::wstring(sInputFileName.begin(), sInputFileName.end());
                hr = cpInputStream->BindToFile(wInputFileName.c_str(), SPFM_OPEN_READONLY, &sInputFormat.FormatId(), sInputFormat.WaveFormatExPtr(), SPFEI_ALL_EVENTS);
                hr = cpRecognizer->SetInput(cpInputStream, TRUE);
                hr = cpRecognizer->CreateRecoContext(&cpRecoContext);
                hr = cpRecoContext->CreateGrammar(NULL, &cpRecoGrammar);
                hr = cpRecoGrammar->LoadDictation(NULL,SPLO_STATIC);

                hr = cpRecoContext->SetNotifyWin32Event();
                auto hEvent = cpRecoContext->GetNotifyEventHandle();
                hr = cpRecoContext->SetInterest(SPFEI(SPEI_RECOGNITION) | SPFEI(SPEI_END_SR_STREAM), SPFEI(SPEI_RECOGNITION) | SPFEI(SPEI_END_SR_STREAM));
                hr = cpRecoGrammar->SetDictationState(SPRS_ACTIVE);
                BOOL fEndStreamReached = FALSE;
                unsigned int timeOut = 0;
                //WaitForSingleObject(hEvent, INFINITE);
                while (!fEndStreamReached && S_OK == cpRecoContext->WaitForNotifyEvent(INFINITE)){
                    CSpEvent spEvent;

                     while (!fEndStreamReached && S_OK == spEvent.GetFrom(cpRecoContext)){

                        switch (spEvent.eEventId){

                            case SPEI_RECOGNITION:
                                {
                                    auto pPhrase = spEvent.RecoResult();
                                    SPPHRASE *phrase = nullptr;// new SPPHRASE();
                                    LPWSTR* text = new LPWSTR(L"");
                                    pPhrase->GetText(SP_GETWHOLEPHRASE, SP_GETWHOLEPHRASE, TRUE, text, NULL);
                                    pPhrase->GetPhrase(&phrase);

                                    if(phrase != NULL && phrase->pElements != NULL) {
                                        std::wstring wRuleName = L"";

                                        if(nullptr != phrase && phrase->Rule.pszName != NULL) {
                                            wRuleName = phrase->Rule.pszName;
                                        }

                                        std::wstring recognizedText = L"";
                                        bool firstWord = true;
                                        for(ULONG i = 0; i < (ULONG)phrase->Rule.ulCountOfElements; ++i) {

                                            if(phrase->pElements[i].pszDisplayText != NULL) {

                                                std::wstring outString = phrase->pElements[i].pszDisplayText;
                                                std::string soutString = std::string(outString.begin(), outString.end());
                                                if(!firstWord){
                                                    soutString = " " + soutString;
                                                    firstWord = false;
                                                }
                                                soutString = soutString + " ";
                                                fputs(soutString.c_str(),fp);
                                                /*if(recognizedText != L"") {
                                                    recognizedText += L" " + outString;
                                                } else {
                                                    recognizedText += outString;
                                                }*/
                                            }
                                        }

                                    }
                                    delete[] text;

                                    break;
                                }

                            case SPEI_END_SR_STREAM:
                                {
                                    fEndStreamReached = TRUE;
                                    break;
                                }

                        }

                        // clear any event data/object references
                        spEvent.Clear();
                    }
                }

                hr = cpRecoGrammar->SetDictationState(SPRS_INACTIVE);
                hr = cpRecoGrammar->UnloadDictation();
                hr = cpInputStream->Close();

                fclose(fp);
            }
        }
        closedir(dir);
    } else {
        perror("Error opening directory");
    }

    ::CoUninitialize();

    std::printf("Press any key to continue...");
    std::getchar();
    return 0;
}

我很长时间没有这样做,但是你必须得到dirent.h才能正常工作。我正在玩这个图书馆,除了尝试之外别无他法。

使用提供的代码,您可能会开始查看在识别步骤中生成的置信度值。如果您愿意,也可以调整它以从批处理文件运行。

我遇到的问题如下:

  1. 准确性是一个问题,为了改善它,我必须训练识别器,这将需要比我更多的时间。
  2. 我发现直接翻译成文字并不是我真正想要的东西。事实证明,音素数据非常重要。有了它,您就可以形成自己的信心计划,并根据您的应用开发自己的替代方案。
  3. Window's Recognizer虽然很好,却不会识别出它不知道的单词。你必须弄清楚如何将你的词汇添加到windows&#39;语音识别器词典。
  4. 话虽如此,使用股票窗口桌面语音识别器并不是一项微不足道的工作。我要看一下现有的一些API。如果您不仅限于仅限客户端的应用程序,那么您可以查看其他API。