我正计划建立一个平台,通过讲话并检查IBM Speech-to-Text API返回的置信度来从特定单词开发用户的发音(如果该值小于85%,则应重试)。我可以在这种情况下使用'word_confidence'吗,否则不应该以这种方式使用它们?
答案 0 :(得分:1)
这值得一试,但是我可以看到许多障碍。
您将如何解释口音和方言?南部的口音与中西部的口音一样可以理解和正确。
如果您只发布一个单词要处理的语音音频文件,则STT服务将无法利用上下文来确定实际说的是哪个单词,同音字将特别棘手。
您有两种选择:
1.word_alternatives作为替代选项的一部分,但是您将获得所有替代响应中所有单词的置信度。
2。关键字匹配置信度。这很可能是您的最佳选择。
答案 1 :(得分:0)
这是一个好项目。值得一试。
@chughts的解释是正确的,并且我在IBM Speech Rec中遇到了重音问题。
如果IBM不是您的限制,那么您可能要使用Google的Speech API。它为您提供重音符号。对于我的用例,总是具有更高的准确性(置信度)。
但是,由于您的目标本身取决于“置信度”,因此它(谷歌语音录制)可能会以专业人士或反对者的身份出现。