Question

Microsoft Bing Speech API是否可以配置为仅返回数字和字母，而不是完整的单词？

用例是翻译加拿大邮政编码。防爆。 M 1 B 0 R 3.微软可以返回＆＃34; Em 1 Be 0是3＆＃34;

我们的音频文件为8000hz，并使用＆＃34; M-ULAW＆＃34;进行编码。我们无法灵活地更改采样率或编码。我们正在使用＆＃34; SMD＆＃34;方案，但我无法找到有关此功能的任何文档。基本请求URI：

https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0

有没有办法从这个用例中获得Microsoft更准确的回复？

谢谢

Answer 1

您可以尝试使用Microsoft's Custom Speech Service（以前称为自定义识别智能服务或CRIS）来创建和使用custom language model。

guidelines for transcription of custom language models说“普通首字母缩略词可以作为单个实体保留，但字母之间没有句号或空格，但所有其他首字母缩略词应以单独的字母书写，每个字母用单个空格分隔”，包括这个例子：

Original text               After normalization
-----------------------     ---------------------------
play OU812 by Van Halen     play O U 8 1 2 by Van Halen

因此，遵循他们的指导原则，您的自定义语言模型将是一个文件，其中每一行看起来像这样：

M 1 B 0 R 3

您可以根据代码的结构轻松生成包含数千个加拿大邮政编码示例的文件，其正则表达式格式如下所示：

[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9]

（上述表达式取自this answer about validating postal codes。）

通过这样做，你告诉识别者你期望人们说什么样的事情，并在声音有多种可能性时帮助它选择（例如“U”与“你”）。我认为它会对你得到的结果产生巨大的影响。

可以将Microsoft Bing Speech配置为仅返回数字/字母吗？

1 个答案: