应用错误收集

时间：2019-03-15 05:03:36

标签： ibm-cloud speech-recognition speech-to-text

我正计划建立一个平台，通过讲话并检查IBM Speech-to-Text API返回的置信度来从特定单词开发用户的发音（如果该值小于85％，则应重试）。我可以在这种情况下使用'word_confidence'吗，否则不应该以这种方式使用它们？

答案 0 :(得分：1)

这值得一试，但是我可以看到许多障碍。

您将如何解释口音和方言？南部的口音与中西部的口音一样可以理解和正确。

如果您只发布一个单词要处理的语音音频文件，则STT服务将无法利用上下文来确定实际说的是哪个单词，同音字将特别棘手。

您有两种选择：
1.word_alternatives作为替代选项的一部分，但是您将获得所有替代响应中所有单词的置信度。

2。关键字匹配置信度。这很可能是您的最佳选择。

答案 1 :(得分：0)

这是一个好项目。值得一试。

@chughts的解释是正确的，并且我在IBM Speech Rec中遇到了重音问题。

如果IBM不是您的限制，那么您可能要使用Google的Speech API。它为您提供重音符号。对于我的用例，总是具有更高的准确性（置信度）。

但是，由于您的目标本身取决于“置信度”，因此它（谷歌语音录制）可能会以专业人士或反对者的身份出现。