应用错误收集

假设每个参与者同意Skype电话的录制和转录，是否有办法转录会议（实时或离线或两者），以便产生一个文本记录，其中每个口头文本正确归因于发言人。然后可以将抄本输入到任何种类的搜索或NLP算法。

排名前三位的Google搜索热门＆＃34;自动转录Skype＆＃34;指的是使手动转录更轻松的应用：

虽然记录音频并将其发送到语音到文本引擎是微不足道的，但我怀疑它的质量会非常高，因为最好的结果通常是与扬声器相关的模型（否则我们不会花时间训练Dragon Naturally Speaking）。

但是，在我们选择说话者相关的转录模型之前，我们需要知道哪个音频片段属于哪个音箱。有两种方法可以解决这个问题：

有一种简单的方法可以检索来自每个参与者的所有音频，例如：您只需在通话过程中录制每个扬声器麦克风的所有音频，您就不必进行任何分段。
如果第一个选项在某种程度上不可行或禁止，我们必须使用扬声器二进制算法，该算法将音频分段为N个群集/扬声器（大多数算法允许被告知有多少音频中的扬声器，但有些人可以自己解决这个问题）。对于随着呼叫进行的实时记录，我想我们需要一些花哨的实时扬声器二值化算法。

在任何情况下，一旦分割得到解决，每个参与者都有他们训练有素的说话者模型，然后将其应用到他们的音频部分。在一天结束时，每个人都会得到一个很好的会话记录，后来我们可以做一些奇特的事情，比如主题分析，或者老大哥想要筛选每个人的项目会议，而不必听几个小时的音频。

我的问题是，在实践中实现这一点的方法是什么？