应用错误收集

时间：2017-07-06 22:01:26

标签： artificial-intelligence speech-recognition speech-to-text ibm-watson google-speech-api

有没有人试图使用两个或多个语音转换为文本API？您可以使用时间戳匹配单词，并选择具有最高置信度的单词。如果有人这样做了，它是否显着提高了转录的准确性？值得吗？

答案 0 :(得分：0)

由于许多不同的原因，这种方法可能存在问题。并非所有供应商都会逐字回报置信度，即使他们这样做，一家供应商的60％信心并不意味着来自不同供应商的API的信心得分为60％。置信度分数仅在发布它们的API的上下文中有效。

目前，大多数语音文本供应商都拥有相当不错的模型。有些（如IBM Watson）实际上允许您通过添加词汇单词来自定义模型。如果你看一下针对SWITCHBOARD语料库的行业基准，你会发现供应商不断改进并相互跳跃。 2016年9月13日，微软宣布它的错误率最低（https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/）。在2017年11月1日，谷歌声称已经击败了这一点，然后IBM在2017年7月3日声称优势（https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/）。差异都是百分比或百分比的改善。我预计这种改进的跨越将在短期内持续下去。

总而言之 - 通过使用两种不同的API，您可以有效地将语音成本加倍到文本实现 - 这很难证明，基于您将实现的最低精度提升。

答案 1 :(得分：0)

当您不关心解码速度但需要高精度时，这是许多演讲比赛的标准练习。系统组合通常会给您带来显着的改进，大约增加10％，因此通常是有益的

您不需要时间戳来正确组合假设，您可以统计地比较输出。有关该主题的参考，请阅读

请参阅SCTK中的ROVER实施。