我正在尝试使用Watson用巴西葡萄牙语创建音频文件的转录。我对api进行了调用,结果成功返回。但是转录是可怕的。这是绝对没有用的,没有一个单词能被正确识别。 我使用了以下命令:
curl -X POST -u "apikey:<key>" --header "Content-Type: audio/mp3" --data-binary @./file.mp3
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/<code>/v1/recognize/model=pt-BR_BroadbandModel"
测试音频包含90分钟音频中的9分钟。这是一位码头工人与一位研究人员的访谈。已用cel电话录制。我已将其上传到这里进行检查:https://drive.google.com/file/d/1Xuibxksudp55uwaz6oSOccTZ3pP7Dya9/view?usp=sharing
沃森不可能有如此可怕的抄写。我想念什么?我必须先设置一些参数或在音频中做些工作吗?
我也尝试过窄带模型。也尝试过flac。
答案 0 :(得分:0)
对于最终用户,沃森ibm api似乎不适合使用,原因是他们的api设计对于转录过于复杂。 它有一个错误,我相信他们的团队无法解码
但是建议与Google合作 和语音识别
pip install --upgrade SpeechRecognition(linux, unix systems)
or C:\path_to_ python.exe -m pip install --upgrade SpeechRecognition (windows)
这是一个内置所有模块的模块 不同api创建者(例如ibm)的容量 谷歌,微软等, 只需使用
import speech_recogntion as sr
r = sr.Recognizer()
with sr.AudioFile("path to audio file") as source:
#r.adjust_for_ambient_noise() depending on if you have background noise
audio = r.record(source)
然后 识别出文件 其中xxx是列表中的api创建者。说
google, ibm, azure or bing(with microsoft)
t = r.recognize_xxx(audio, credentials, ...)
在模块上阅读更多内容以更精确 这只是一个粗略的指导