Bing语音识别API输出 - 数字与文本

时间:2016-09-07 16:15:08

标签: azure voice-recognition

我看到一些奇怪的行为,语音识别API有时会返回单词,有时会返回数字。例如,给定音频输入为"十五美元和七美分"它有时会返回"十五美元和七美分"和其他人" $ 15.07"。有没有办法确保一个或另一个被退回?或者,我是否需要自己解析并将单词转换为数字。

谢谢!

1 个答案:

答案 0 :(得分:1)

我刚刚研究了类似的问题,发现BingSTT API在不同的领域中返回两个版本。刚刚使用示例代码尝试了您的示例:https://github.com/Microsoft/Cognitive-Speech-STT-JavaScript并获得此响应:

[{
"lexical": "fifteen dollars and seven cents",
"display": "$15.07.",
"inverseNormalization": null,
"maskedInverseNormalization": null,
"transcript": "$15.07.",
"confidence": 0.9474185
}]

所以我猜你的选择是使用哪个字段,词汇或显示。希望这会有所帮助。