我正在使用Google Speech To Text api转录流音频。我一直在输入关键词来帮助训练和使api更准确。仍然不是很好(我正在传送警察广播流量)。有没有办法创建自己的模型?我想我可以传递录制的剪辑,并手动转录它以帮助训练自定义模型?
答案 0 :(得分:0)
您可以使用Google提供的“语音适应”技术。 可以通过以下方式在您的识别请求中提供上下文集:
{“短语”:'布鲁克林大桥,“提升”:20.0} 促进。该值增加了一个特定短语比其他相似发音短语被识别的可能性。提升越高,错误肯定识别的机会也就越高。可以接受各种正值。大多数用例的值最好在0到20之间。使用二进制搜索方法可以帮助您找到最佳值。 有关更多信息:https://cloud.google.com/speech-to-text/docs/context-strength