我看到一些奇怪的行为,语音识别API有时会返回单词,有时会返回数字。例如,给定音频输入为"十五美元和七美分"它有时会返回"十五美元和七美分"和其他人" $ 15.07"。有没有办法确保一个或另一个被退回?或者,我是否需要自己解析并将单词转换为数字。
谢谢!
答案 0 :(得分:1)
我刚刚研究了类似的问题,发现BingSTT API在不同的领域中返回两个版本。刚刚使用示例代码尝试了您的示例:https://github.com/Microsoft/Cognitive-Speech-STT-JavaScript并获得此响应:
[{
"lexical": "fifteen dollars and seven cents",
"display": "$15.07.",
"inverseNormalization": null,
"maskedInverseNormalization": null,
"transcript": "$15.07.",
"confidence": 0.9474185
}]
所以我猜你的选择是使用哪个字段,词汇或显示。希望这会有所帮助。