假设每个参与者同意Skype电话的录制和转录,是否有办法转录会议(实时或离线或两者),以便产生一个文本记录,其中每个口头文本正确归因于发言人。然后可以将抄本输入到任何种类的搜索或NLP算法。
排名前三位的Google搜索热门"自动转录Skype"指的是使手动转录更轻松的应用:
(1)http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html
(2)http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation
(3)https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations
虽然记录音频并将其发送到语音到文本引擎是微不足道的,但我怀疑它的质量会非常高,因为最好的结果通常是与扬声器相关的模型(否则我们不会花时间训练Dragon Naturally Speaking)。
但是,在我们选择说话者相关的转录模型之前,我们需要知道哪个音频片段属于哪个音箱。有两种方法可以解决这个问题:
有一种简单的方法可以检索来自每个参与者的所有音频,例如:您只需在通话过程中录制每个扬声器麦克风的所有音频,您就不必进行任何分段。
如果第一个选项在某种程度上不可行或禁止,我们必须使用扬声器二进制算法,该算法将音频分段为N个群集/扬声器(大多数算法允许被告知有多少音频中的扬声器,但有些人可以自己解决这个问题)。对于随着呼叫进行的实时记录,我想我们需要一些花哨的实时扬声器二值化算法。
在任何情况下,一旦分割得到解决,每个参与者都有他们训练有素的说话者模型,然后将其应用到他们的音频部分。在一天结束时,每个人都会得到一个很好的会话记录,后来我们可以做一些奇特的事情,比如主题分析,或者老大哥想要筛选每个人的项目会议,而不必听几个小时的音频。
我的问题是,在实践中实现这一点的方法是什么?