有没有人试图使用两个或多个语音转换为文本API?您可以使用时间戳匹配单词,并选择具有最高置信度的单词。如果有人这样做了,它是否显着提高了转录的准确性?值得吗?
答案 0 :(得分:0)
由于许多不同的原因,这种方法可能存在问题。并非所有供应商都会逐字回报置信度,即使他们这样做,一家供应商的60%信心并不意味着来自不同供应商的API的信心得分为60%。置信度分数仅在发布它们的API的上下文中有效。
目前,大多数语音文本供应商都拥有相当不错的模型。有些(如IBM Watson)实际上允许您通过添加词汇单词来自定义模型。如果你看一下针对SWITCHBOARD语料库的行业基准,你会发现供应商不断改进并相互跳跃。 2016年9月13日,微软宣布它的错误率最低(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。在2017年11月1日,谷歌声称已经击败了这一点,然后IBM在2017年7月3日声称优势(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/)。差异都是百分比或百分比的改善。我预计这种改进的跨越将在短期内持续下去。
总而言之 - 通过使用两种不同的API,您可以有效地将语音成本加倍到文本实现 - 这很难证明,基于您将实现的最低精度提升。
答案 1 :(得分:0)
当您不关心解码速度但需要高精度时,这是许多演讲比赛的标准练习。系统组合通常会给您带来显着的改进,大约增加10%,因此通常是有益的
您不需要时间戳来正确组合假设,您可以统计地比较输出。有关该主题的参考,请阅读
请参阅SCTK中的ROVER实施。