我正在使用MS Translator Speech WebSocket API进行实时语音识别和翻译。问题是有时识别的文本没有标点符号(逗号,句号等)。转录后的文本看起来不错。我还收到了带有合成翻译的MP3。
它看起来完全是随机的,我可以多次发送相同的音频,有些响应带有标点符号,有些则没有标点符号。我以正确的格式和接近实时的速率发送音频,例如我每〜100ms发送100ms样本。公认的语言是西班牙语。
这是一个常见问题还是有其他问题?
答案 0 :(得分:1)
切换到语音预览API可以解决缺少的标点问题。目前只有SDK,并且原始WebSocket API尚未记录。我已经设法连接并使用WS API more info in another SO question。
答案 1 :(得分:0)
部分识别和最终识别有不同的响应类型。随着演讲的继续进行,您会得到部分认可,话语结束时您将获得最后的认可。部分结果可能是缺少标点和大小写,最后的结果将包含大小写和标点。如果要忽略不带大小写和标点符号的响应,则希望进行过滤以仅查看最终响应。