应用错误收集

我正在寻找视频中的自动语音识别功能。我不是在寻找一个准确的“转录”，而是寻找一个能够准确识别某些特定关键词的系统。

我似乎面临的问题是非语音视频（例如常规电视录制），其中存在一些背景噪音（人群欢呼，拍手等）或音乐。是否有任何已知的方法我应该考虑“提取”人类的声音，然后将其传递给像狮身人面像这样的语音识别器？我知道这可能是一个非常开放的问题，但我不是在寻找超高精度，至少从一开始。我看到一些商业系统在这方面做得不错。我正在寻找我应该开始看的地方。

我是这个领域的新手 - 所以任何帮助都会很棒。

视频语音识别中的降噪

0 个答案: