标签: c# .net speech-recognition google-speech-api
我正在构建类似“头脑风暴”工具的工具:一群人可以向麦克风大喊大叫。输入被翻译为文本(谷歌语音转换为文本)并显示在词云中。词云将相同的词(或术语)分组。但是我无法正确识别各个术语。 Google只能在输入之间长时间保持沉默的情况下才拆分输入。如果两个人互相呼喊,那么不同的想法将被视为一个单独的想法。那不是我想要的。有任何想法吗?例如。一个人说“深蓝色”,一个人说“深红色”。 Google给了我一个输出“深蓝色暗红色”。
答案 0 :(得分:0)
它们具有实验性的speaker diarization功能,但是它并不是很可靠地工作。其他工具包和API也支持扬声器分离。