可怕的沃森转录

时间:2019-12-23 23:33:24

标签: ibm-watson

我正在尝试使用Watson用巴西葡萄牙语创建音频文件的转录。我对api进行了调用,结果成功返回。但是转录是可怕的。这是绝对没有用的,没有一个单词能被正确识别。 我使用了以下命令:

curl -X POST -u "apikey:<key>" --header "Content-Type: audio/mp3" --data-binary @./file.mp3 
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/<code>/v1/recognize/model=pt-BR_BroadbandModel"

测试音频包含90分钟音频中的9分钟。这是一位码头工人与一位研究人员的访谈。已用cel电话录制。我已将其上传到这里进行检查:https://drive.google.com/file/d/1Xuibxksudp55uwaz6oSOccTZ3pP7Dya9/view?usp=sharing

沃森不可能有如此可怕的抄写。我想念什么?我必须先设置一些参数或在音频中做些工作吗?

我也尝试过窄带模型。也尝试过flac。

1 个答案:

答案 0 :(得分:0)

对于最终用户,沃森ibm api似乎不适合使用,原因是他们的api设计对于转录过于复杂。 它有一个错误,我相信他们的团队无法解码

但是建议与Google合作 和语音识别

    pip install --upgrade SpeechRecognition(linux, unix systems)
or  C:\path_to_ python.exe -m pip install --upgrade SpeechRecognition (windows)

这是一个内置所有模块的模块 不同api创建者(例如ibm)的容量 谷歌,微软等, 只需使用

import speech_recogntion as sr
r = sr.Recognizer()
with sr.AudioFile("path to audio file") as source:
       #r.adjust_for_ambient_noise() depending on if you have background noise 
      audio = r.record(source)

然后  识别出文件  其中xxx是列表中的api创建者。说

  google, ibm, azure or bing(with microsoft)
  t = r.recognize_xxx(audio, credentials, ...)

在模块上阅读更多内容以更精确 这只是一个粗略的指导