我需要经过优化的专业解决方案,以检测智能手机上使用的1到1000之间的数字。 最好的解决方案是让此SDK脱机工作。 任何想法 ? 我找不到Google Speech或Amazon Transcribe的任何配置以允许“仅数字”
答案 0 :(得分:1)
严格要求人们提供数字并不完全正确,他们通常会说很多东西,例如“我不知道”或“稍等”,即使您要求他们提供数字。您会严重损害体验。
您必须智能地分析识别结果,即使识别出非数字,您也必须采取相应措施。
要专门提高数字的准确性,您可以使用Google Speech API的word hint feature。只需添加数字和其他必需的单词作为提示,Google就会更加准确地识别它们。亚马逊也具有此功能,他们称其为“ custom vocabulary”。
如果您要使用离线API,则可以尝试使用Kaldi。您可以使用数字adapt Kaldi vocabulary来提高准确性,它会比Google API更好。
答案 1 :(得分:0)
我找到的最佳解决方案是将 class tokens 作为短语传递给您的 google 请求。这允许您指定要用作字典的特定值的通用集。例如,传入 ["$OOV_CLASS_DIGIT_SEQUENCE"] 允许您过滤任意长度的数字。