Question

我正在尝试使用Watson用巴西葡萄牙语创建音频文件的转录。我对api进行了调用，结果成功返回。但是转录是可怕的。这是绝对没有用的，没有一个单词能被正确识别。我使用了以下命令：

curl -X POST -u "apikey:<key>" --header "Content-Type: audio/mp3" --data-binary @./file.mp3 
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/<code>/v1/recognize/model=pt-BR_BroadbandModel"

测试音频包含90分钟音频中的9分钟。这是一位码头工人与一位研究人员的访谈。已用cel电话录制。我已将其上传到这里进行检查：https://drive.google.com/file/d/1Xuibxksudp55uwaz6oSOccTZ3pP7Dya9/view?usp=sharing

沃森不可能有如此可怕的抄写。我想念什么？我必须先设置一些参数或在音频中做些工作吗？

我也尝试过窄带模型。也尝试过flac。

Answer 1

对于最终用户，沃森ibm api似乎不适合使用，原因是他们的api设计对于转录过于复杂。它有一个错误，我相信他们的团队无法解码

但是建议与Google合作和语音识别

    pip install --upgrade SpeechRecognition(linux, unix systems)
or  C:\path_to_ python.exe -m pip install --upgrade SpeechRecognition (windows)

这是一个内置所有模块的模块不同api创建者（例如ibm）的容量谷歌，微软等，只需使用

import speech_recogntion as sr
r = sr.Recognizer()
with sr.AudioFile("path to audio file") as source:
       #r.adjust_for_ambient_noise() depending on if you have background noise 
      audio = r.record(source)

然后识别出文件其中xxx是列表中的api创建者。说

  google, ibm, azure or bing(with microsoft)
  t = r.recognize_xxx(audio, credentials, ...)

在模块上阅读更多内容以更精确这只是一个粗略的指导

可怕的沃森转录

1 个答案: