应用错误收集

如何使用Google Speech Cloud API识别其他说话者？

时间：2019-03-27 15:21:55

标签： c# .net speech-recognition google-speech-api

我正在构建类似“头脑风暴”工具的工具：一群人可以向麦克风大喊大叫。输入被翻译为文本（谷歌语音转换为文本）并显示在词云中。词云将相同的词（或术语）分组。但是我无法正确识别各个术语。 Google只能在输入之间长时间保持沉默的情况下才拆分输入。如果两个人互相呼喊，那么不同的想法将被视为一个单独的想法。那不是我想要的。有任何想法吗？例如。一个人说“深蓝色”，一个人说“深红色”。 Google给了我一个输出“深蓝色暗红色”。

1 个答案:

答案 0 :(得分：0)

它们具有实验性的speaker diarization功能，但是它并不是很可靠地工作。其他工具包和API也支持扬声器分离。

如何使用Microsoft Speech从语音模式识别扬声器？
IBM Watson是否支持“演讲者diarization”/“演讲者识别”？
使用Google录制扬声器分离
Google Speech API中的演讲者Diarization支持
Google Cloud语音转文本API - 多说话人识别？
扬声器偏音始终以C＃
如何使用Google Speech Cloud API识别其他说话者？
如何在Node JS的Google Cloud Speech库中启用说话者区分？
Google Cloud语音转文本API-说话者区分
说话人二语化有时会在最后遗漏单词收集

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？